机器学习知识总结
绪论
机器学习能做什么
- 互联网搜索
自动汽车驾驶
画作鉴别
古文献修复
竞选
· 训练数据有标记信息的学习任务为:监督学习(supervised learning),容易知道上面所描述的分类和回归都是监督学习的范畴。
· 训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。
一、过拟合和欠拟合
过拟合
学习器把训练样本学得太好,把训练样本本身的一些特点当成了所有潜在样本都有的特性,导致泛化性能降低
欠拟合
对训练样本的一般性质尚未学好
第二章:模型评估:
评估方法:
- 留出法
- 交叉验证法
- 自助法
性能度量:是衡量模型泛化能力的评价标准,反映了任务需求
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EQAxQgLZ-1625405751891)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702174859649.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i2SfYcrm-1625405751895)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702175019821.png)]
偏差与方差:
· *期望泛化误差=方差+偏差*
· *偏差刻画学习器的拟合能力*
· *方差体现学习器的稳定性*
第三章:线性模型
线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数
简单、基本、可理解性好
对率回归:(分类学习算法)
• 无需事先假设数据分布
• 可得到“类别”的近似概率预测
• 可直接应用现有数值优化算法求取最优解
第四章:决策树
一个根节点和多个内部节点和叶节点
* 每个非叶节点表示一个特征属性测试。
* 每个分支代表这个特征属性在某个值域上的输出。
* 每个叶子节点存放一个类别。
* 每个节点包含的样本集合通过属性测试被划分到子节点中,根节点包含样本全集。
决策树的构造是一个递归的过程,有三种情形会导致递归返回:(1) 当前结点包含的样本全属于同一类别,这时直接将该节点标记为叶节点,并设为相应的类别;(2) 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分,这时将该节点标记为叶节点,并将其类别设为该节点所含样本最多的类别;(3) 当前结点包含的样本集合为空,不能划分,这时也将该节点标记为叶节点,并将其类别设为父节点中所含样本最多的类别。
* 预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。
* 后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。
连续值与缺失值处理
对于连续值的属性,若每个取值作为一个分支则显得不可行,因此需要进行离散化处理,常用的方法为二分法,基本思想为:给定样本集D与连续属性α,二分法试图找到一个划分点t将样本集D在属性α上分为≤t与>t。
* 首先将α的所有取值按升序排列,所有相邻属性的均值作为候选划分点(n-1个,n为α所有的取值数目)。
* 计算每一个划分点划分集合D(即划分为两个分支)后的信息增益。
* 选择最大信息增益的划分点作为最优划分点。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PGZAMtKM-1625405751897)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702175501036.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DHAwabMu-1625405751905)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702175546777.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4WV7uGIc-1625405751907)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702175608859.png)]
预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。
后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。
第五章:神经网络
概念
他是一个具有适应的简单单元组成的一个并行交汇互通的网络,它的组织能够模拟生物神经对真实世界作出反应。
前馈网络:神经元之间不存在同层连接也不存在跨层连接,即网络中无环或者回路。
提升模型复杂度:
- 提升学习能力:
- 增加隐层神经元数目
- 增加隐层数目
- 导致过拟合风险
- 使用大量训练数据
- 增大训练难度:使用若干启发式诀窍
第六章:支持向量机
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hYkajvb4-1625405751908)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702180241388.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nBdXJvMA-1625405751909)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702180306606.png)]
第七章:贝叶斯分类器
总结最大似然法估计参数的过程,一般分为以下四个步骤:
* 1.写出似然函数;
* 2.对似然函数取对数,并整理;
* 3.求导数,令偏导数为0,得到似然方程组;
* 4.解似然方程组,得到所有参数即为所求。
第八章:集成学习
集成学习:
通过构建和结合多个学习器来提升效果
boosting
个体学习器存在强依赖关系,
串行生成
每次调整训练数据的样本分布
Bagging与随机森林:
个体学习器不存在强依赖关系
并行化生成
自助采样法
Bagging是一种并行式的集成学习方法,即基学习器的训练之间没有前后顺序,可以同时进行
Bagging使用“有放回”采样的方式选取训练集,训练集包含m个样本,进行m次有放回的随机采样操作得到m个样本的采样集(有接近36.8%的样本没有被采到)。重复T次就可以采集到T个包含m个样本的数据集,从而训练出T个基学习器,最终对这T个基学习器的输出进行结合。
可以看出Bagging主要通过样本的扰动来增加基学习器之间的多样性,因此Bagging的基学习器应为那些对训练集十分敏感的不稳定学习算法,例如:神经网络与决策树等。
第九章
聚类
性能度量:
- 外部指标
- 内部指标
距离度量的性质:
- 非负性:
- 同一性:
- 对称性:
- 直递性
K-Means的思想十分简单,****首先随机指定类中心,根据样本与类中心的远近划分类簇,接着重新计算类中心,迭代直至收敛****。
简单来理解DBSCAN便是:****找出一个核心对象所有密度可达的样本集合形成簇****。首先从数据集中任选一个核心对象A,找出所有A密度可达的样本集合,将这些样本形成一个密度相连的类簇,直到所有的核心对象都遍历完。
K-Means与LVQ都试图以类簇中心作为原型指导聚类,其中K-Means通过EM算法不断迭代直至收敛,LVQ使用真实类标辅助聚类;高斯混合聚类采用高斯分布来描述类簇原型;密度聚类则是将一个核心对象所有密度可达的样本形成类簇,直到所有核心对象都遍历完;最后层次聚类是一种自底向上的树形聚类方法,不断合并最相近的两个小类簇
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8srWoLAe-1625405751910)(C:\Users\yang\AppData\Roaming\Typora\typora-user-images\image-20210702163733735.png)]
设x在平面上的投影为x1,w为平面法向量,所以有: wx1+b=0 因为xx1与w平行,所以:
|wxx1|=|w||xx1|,|xx1|=r 在欧式距离下,向量的模等于向量的L2范数,所以: |wxx1|=||w||r
因为wxx1=wT*(x1-x)=wTx1-wTx,wTx1=-b w*xx1=-b-WTx 则有: ||w||r=|-b-wTx|
r=|b+wTx|/||w||后剪枝先从训练集生成一棵完整的决策树,从图中可以知,该决策树验证集的精度为42.9%,
后剪枝首先考虑图中的6号节点 ,若将其剪枝,则相当于把它替换为叶节点,替换后的叶节点包含编号{7、15}的训练样本
于是,该叶节点的类型标记为好瓜,此时,验证集的精度提高至57.1%,于是,后剪枝的决策决定剪枝。
然后观察5号节点,若将其衔接的子树替换为叶节点,替换后的叶节点包含编号{6,7,15}的训练样例,叶节点类别标记为好瓜,此时,验证集的精度是57.1%,但是基于奥卡姆剃刀准则,当精度一样时,剪枝后的模型更好,于是,决策
后剪枝策略决策为剪枝。预剪枝: 优点:
- 使用预剪枝,决策树很多分支未展开,防止了过拟合的风险
2.是在决策树构建的过程中进行的,时间上的开销小 缺点:基于贪心的原则,虽然一个节点不能提高泛化能力,但无法保证后面的节点也不能提高泛化能力,放弃了泛化性提升的可能。
2.基于贪心的策略,容易造成欠拟合风险后剪枝: 优点:
- 保留了更多分支,欠拟合风险小
2.泛化性能更好缺点,时间开销大,后剪枝发生在决策树构造后,需要自低向上地对每一个非叶节点进行考察,时间开销大。
预剪枝: 在决策树生成的过程中,预先估计对结点进行划分能否提升决策树泛化性能。如果能提升,则对此结点进行划分,否则不划分。 优点:
1、使用预剪枝,决策树中很多分支未展开,可以很好的防止过拟合。 2、因为是在构造决策树的过程中进行的,所以时间开销比较小。缺点:
1、预剪枝是基于贪心的策略。虽然一个结点进行划分不能带来泛化性能的提升,但很可能其后续结点能够带来泛化性能的提升。所以这种贪心策略放弃了一些泛化性能提升的可能性。
2、由于贪心策略,预剪枝决策树欠拟合的风险会比较大。 后剪枝:
后剪枝是在决策树构建完成之后,自底向上地对每一个非叶结点进行考察,如果将此结点地子树替换为叶结点能够带来决策树模型泛化性能地提升,那么就将此非叶结点地子树替换为叶结点,否则不替换。
优点: 1、与预剪枝相比,保留了更多的分支,欠拟合风险比较小 2、泛化性能一般情况下也比预剪枝得到的决策树泛化性能好。 缺点:
1、剪枝发生在决策树构建完成之后,而且要自底向上的检查每个非叶结点,时间开销会比较大。