1.机器学习
定义:如果机器通过经验E在任务T上提升了指标P,那么称机器对E进行了学习。
术语:学习过程=训练过程,n维属性=n个特征=输入变量=x,标签=目标变量=输出向量=y,算法=模型=映射
一组样本=数据集,样本是独立同分布的,一个数据集应划分为训练集和测试集。
1个实例=1个样本(sample)=1组特征值+对应标签。
例如鸢尾花分类任务,有4个特征(萼片长度,萼片宽度,花瓣长度,花瓣宽度),标签类型有3种('setosa', 'versicolor', 'virginica'),那么其中一个样本可以为(4.1,3.2,1.4,0.2;'virginica')
1. 连续型数据一般用于回归任务,离散型数据一般用于分类任务
2.训练的目的是用训练集来拟合一个最佳算法f,使得y=f(x,θ),其中θ为算法可以学习的参数,概率模型通常拟合的是p(y|x)=f(x,θ),用于预测每一类的概率。用测试集来测试算法好坏。
3.x和y的映射集合称作假设空间V,θ具体可以拆分为权重向量w和偏置b
f为线性时,y=f(x,θ)=w*x+b(w转置)
f为非线性时,y=f(x,θ)=w*Φ(x)+b(w转置),Φ(x)也能带可学习的参数
*多层感知机为当Φ(x)也为非线性函数并且带可学习的参数
4.损失函数L=代价函数,用于衡量输出向量y与真实数据y的不一致性。
5.期望损失=损失函数的期望,由于无法计算,用经验损失近似估算期望损失(大数定理)。
给定数据集、损失函数L、算法f则可以计算出经验损失。
要求最优f,则需L使得经验损失最小。
6.过拟合指模型在训练集上表现佳但测试集上表现糟糕。欠拟合指模型在训练集上误差很大。
7.为了防止过拟合,一般会在L后面加额外正则项,用于对L中的参数做限制,即拉格朗日约束法,正则项系数越大,正则化作用越明显。
L1正则化(w中各个元素的绝对值之和)
L2正则化(w中各个元素的平方和然后再求平方根)。
8.求最优f时,常用梯度下降法。梯度代表着函数变化最快的方向,跟着梯度方向可以较快找到函数最小值。步长设计不得当会使点震荡,找不到最低点。随机梯度下降/切线法/自适应矩估计,要看懂原理和代码演示,理解什么是鞍点逃离(正在写申报书还没空看!)
总之只需要知道设计好代价函数→找好n组样本→确定w和b的初始值、其他超参数→迭代时自动更新w和b以找到使L最小的w和b,调参调的就是包括初始值在内的超参数。