知识点(已解决)
- 距离、范数
欧氏距离——L2
曼哈顿距离——L1 - 判别模型、生成模型
判别模型舍弃了繁文缛节,直接利用 y= f(x) 或者 p(y|x)进行建模(其实这两者实质上是一个意思),学习不同类别之间的差异,从而寻得分类超平面;
生成模型一丝不苟,通过对联合概率分布p(x,y)建模,利用它的得到条件概率 p(y|x),从而进行分类,他并没有学到不同类别的差别,而是专注于学习同类的共性,所以并没有去学习分类超平面。 - 线性函数 - 分类问题、回归问题
线性函数,可用于回归,例如线性回归;线性模型也可用于分类,比如 LR、SVM(需要一个非线性的转换) - 线性函数 - 符号函数、决策函数
符号函数之类函数,其作用在于引入非线性,将实值输出变为离散的标签,将用于用于回归问题的线性模型转化为可以用于分类问题的模型。 - 目标函数、损失函数
没有正则项,目标函数 = 损失函数;
有正则项,目标函数 = 损失函数 + 正则项 - 函数间隔、几何间隔
margin = yf(x) = 函数间隔
更多(待反复读)
了解得到 联合概率的未知性和结构化风险的由来:
-
联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数或者分布密度函数。但是在学习过程中,假定这个联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。
-
结构化风险
学习的目标就是选择期望风险最小的模型。但是由于联合分布P(X,Y)是未知的,所以期望风险不能直接计算,但是如果你知道了联合分布那么也就不需要学习了,因为可以根据联合分布来求出条件概率分布。所以我们只能根据大数定理,当数据量足够大时用训练数据级的平均损失(经验损失)来估算期望风险。
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i})) Remp(f)=N1i=1∑NL(yi,f(xi))
这样我们就可以用经验风险估计期望风险,这样通过求解经验风险最小化来找到最优的模型,这是有一个前提:样本量足够大或者无穷。如果当数据量不足或者较少时,怎么去处理这个问题?经验风险最小化和结构风险最小化
m i n R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) min {R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i}))} minRemp(f)=N1i=1∑NL(yi,f(xi))
当样本数量足够小时,经验风险最小化的效果未必就很好,会产生过拟合的现象,泛化能力差。该模型只对训练数据产生很好的效果,在新样本分析和预测时很差。为了防止过拟合的出现,我们引入了结构风险最小化或者正则化,对模型复杂度进行了罚项。
结构风险
R
e
m
p
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i}))+\lambda J(f)
Remp(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
复杂度或者正则化表示了对模型的惩罚,具体惩罚如下
λ ≥ 0 \lambda \geq 0 λ≥0是系数,用以权衡经验分享和模型复杂度,结构风险小需要经验风险和模型复杂度同时小,这样可以有效的防止过拟合现象。
所以求解的最优模型是:
m i n 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) min\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i}))+\lambda J(f) minN1i=1∑NL(yi,f(xi))+λJ(f)
-
特征空间
了解到 图像数据的特征表示与文本数据特征的特征表示”异曲同工“——bag of words。 -
表示学习、欧式以外的空间
欧式空间?