机器学习
数据挖掘——挖掘流失的用户,提供一些优惠活动。
计算机视觉——自动驾驶
公司待遇不错的,高出传统岗位,核心竞争力比较高;
推荐系统+机器学习科学家+知道如何提取特征?
1)训练样本,机器学习数据
2)特征提取,人工标注(如何提取正确特征很关键)
3)学习函数,如何画线,区分不同类型
4)预测
基本工具库
Numpy :科学计算库
Pandas: 数据分析处理库,帮助便利完成数据分析处理
Matplotlib: 数据可视化库,画图操作
Scikit-learn : 机器学习库
线性回归
有监督问题(label 标签值,有标签的问题)
无监督问题
回归——具体的数目
分类——分成大类
标签值,进行预测的真实的值
预测值,
误差,
模型的泛化能力是正常的。
误差独立同分布,服从均值为0的方差为θ2的高斯分布(指定均值和方差)
似然函数(什么样子的变量组合最好,对于所有的样本,似然函数最大,概率值越大)
使得求解更加容易,求解对数,乘法变加法,将解进行转化,求解预测和真实值差值,似然函数最大值。
目标函数求解最小值;
逻辑回归(分类的算法)
将一个数映射到一个【0,1】区间上的数字,一个值映射成一个概率值,对于预测值得出一个值,回归,进行分类的话,传回进行分类。最经典的二分类问题,解决具体问题;
将线性回归的函数进行一个变换
梯度下降法(最优化求解)
直接求偏导,求出一个结果的值,狠多情况下不可求逆的,不见得对于所有问题的导数求解出来的,一个优化的方法进行求解。不断给机器喂数据,一个迭代,不断优化的过程,最终是为了寻找一些参数的,最佳表达模型。
损失函数的评价标准,样本的评价标准,去除样本数量的因素;