0 写在开头
趁着现在在家还没开学,把之前的笔记和记的一些东西整理一下。
资料:《深入浅出Python机器学习》
学习时间:2018.10
目录
1 KNN
- 分类任务,多元分类任务,回归分析。
- 实战:酒的分类
- 核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
- 实际存在问题:高维数据集拟合欠佳,对稀疏数据集束手无策,对规模超大的数据集拟合时间较长
2 广义线性模型
线性回归
- 也称为普通最小二乘法(OLS)。
- 找到训练数据集中的预测值和其真实值的平方差最小的时候,所对应的w和b。训练集的得分和测试集的得分存在巨大差异:出现过拟合。
- 数据量越大,线性回归模型越不容易产生过拟合现象。
岭回归
- 使用L2正则化的线性模型。(实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。)
- 保留所有的特征变量,但减小特征变量的系数值,让特征变量对预测结果的影响变小。——正则化
- 复杂度越低的模型,在训练数据集上表现越差,泛化能力越好。
- 提高alpha值,降低特征变量的系数,降低过拟合程度,模型限制更加严格,有助于泛化。alpha非常小时,和线性回归接近。
lasso回归(套索回归)
- L1正则化
- Lasso回归能够使得损失函数中的许多θ均变成0,这点要优于岭回归,因为岭回归是要所有的θ均存在的,这样计算量Lasso回归将远远小于岭回归。
- alpha太低相当于去除了正则化效果
弹性网模型
- 综合了套索回归和岭回归的惩罚因子
- 选用原则:如果有很多特征,并不是每一个都对结果有重要的影响,则用L1正则化模型如lasso回归;特征不多且每一个都有重要的作用,用L2正则化,岭回归
其他线性模型
其他线性模型还有:逻辑斯谛回归,线性支持向量机(Linear