基本概念
ML:机器学习---寻找函数---数据驱动---数据量少
DL:深度学习---一种机器学习方法---利用神经网络处理和解决数据---数据量大
ML算法类别
回归:逻辑回归、线性回归 利用已知数据寻找函数输出预测数据
分类:随机森林、决策树、朴素贝叶斯、… 根据特征类别筛选数据
还有聚类、降维等
案例学习1
案例:点击次数预测
步骤:
1.给出函数类型
本次案例给出了一次函数。原因是基于领域知识domain knowledge的猜测。和我平时做物理实验的时候很相似。比如一个力学模型,在理论(对应domain knowledge)上建模以后会给出一个函数(也就是文章对应的模型)。在具体实验中会得到一系列的数据,这时候我需要用建模后得出的函数对数据进行拟合(有e拟合,线性拟合)。得到因环境等原因而导致的实际上参数有变化的函数。
参数有权重和偏置。比较简单,不多赘述。
2.定义损失(Loss)
有点像实验里的不确定度,标准差这类的(乐)
平均绝对误差(Mean Absolute Error):y估测-y真实 的绝对值
均方误差(Mean Squared Error):上面的加个平方
交叉熵(error entropy):如果y预测和y真实都是概率分布函数,那么会选择交叉熵 更加倾向于逻辑分类问题。熵是混乱程度,那么当y是概率分布函数的时候,随机变量的取值不够稳定。如果熵偏大,那么随机变量取值不够稳定,很难确定。
3.寻找最优化
梯度下降(gradient descent):,目标是寻找目标函数最小化时对应的自变量的值 放在本案例中,将w(权重)看作自变量x,寻找L函数的最小值
梯度:可以理解为最大变化率的地方。Gradf(x1,x2,…)=(f偏x1,f偏x2,…)有方向和大小
为了寻找最小值,那么就要沿着负梯度方向。
学习率:参数更新量。与学习的步伐有关(两个函数值的间距)。属于人类设定的超参数。对应着上图的α
反复操作,会出现问题,就是局部最小值和全局最小值的问题。这就需要控制学习率的步伐了。