第一章
三要素 :模型 策略 算法
损失函数的期望,也称为风险函数或期望函数
噪声:通常指的是数据中的随机或不相关的错误、偏差或干扰,这些因素会导致模型的性能下降。
正则化:经验风险加一个正则化项或罚项。正则化项与罚项通常指一个东西
正则化项是在目标函数中引入的额外项,目的是限制模型的复杂性,从而防止模型过拟合。
L1范数是数学上用于测量向量大小的范数。对于一个向量,它的L1范数定义为该向量中所有元素的绝对数之和。它在机器学习中用于L1正则化,在损失函数中加入参数向量的L1范数,使得模型在优化过程中倾向于将某些参数缩小到零。它可以自动将一些不重要的特征对应的权值降为0。从而提高泛化能力。
L2范数则为参数向量所有元素平方之和。用处与L1相同。
精确率:所有被模型预测为正类样本中,实际为正类的比例。
召回率:所有实际为正类的样本中,被模型正确预测的比例
第二章
感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1or-1二值。感知机对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型。
感知机模型
w,b为感知机模型参数
感知机的几何解释:线性方程
对应于特征空间 中的一个超平面S,w是超平面的法向量,b是超平面的截距,这个超平面将特征空间划分为两个部分,两部分被分为正负两类。超平面S称为分离超平面。