目录
课程概述
期末60+平时40
回归算法、神经网络分类、聚类算法、降维算法
机器学习学习流程图如下:
1.回归分析:
- 线性回归
- 非线性回归
2.分类算法:
- 神经网络
- 支持向量机
- 朴素贝叶斯
- K-近邻
- 决策树(随机森林)
- 深度神经网络
3.聚类算法:
- K-means聚类
- 层次聚类
- 密度聚类
- 谱聚类
- 高斯混合聚类
4.降维算法:
- 主成分分析
- 线性判别分析
- 局部线性嵌入
参考书目:
- 西瓜书(周志华)
- 斯坦福大学】吴恩达:【斯坦福大学】2019零基础入门吴恩达机器学习到进阶教程_哔哩哔哩_bilibili
!!考前2次画重点!!
机器学习定义
归纳法:从特殊到一般
演绎法:从一般到特殊
传统编程:数据+规则—>结果
模拟人脑:数据+答案==>规则—>结果
机器学习流程图如下:
机器学习依赖数据,而目前大公司牢牢掌握着数据,有一个关键点在于数据的采集如何简单下来?
机器学习应用与发展
应用
小数据举例:
- 画作鉴别:笔触分析(降低成本:需要专业素养,专业训练培养,越专业花费时间,越节约成本时间,效率高,精度高)
- 风格转换(生成对抗网络)(问题在于合成细节处理是否到位)
- 古文献修复
-
(自动记录人工训练数据,自动选择决策(作为判断参考,不敢直接使用决策结果,具体问题需要具体分析,这叫“辅人性”)
大数据举例:
- 帮助奥巴马胜选
发展
机器学习发展历史回顾 - 知乎https://zhuanlan.zhihu.com/p/43833351
机器学习常用术语
有监督学习,无监督学习,半监督学习
数据集:训练集,测试集
假设(hypothesis),真相(ground-truth)
通过回归进行分类,成熟程度:0.95>0.5,熟瓜,0.1<0.5,生瓜
奥卡姆剃刀:如非必要,勿增实体。
NFL定理(no free lunch定理):一个算法若在某些问题上比另一个算法好,必存在另一些问题,比好。
具体的问题适用情况好即可,说明不适用情况。
模型选取:
- 评价方法(数据集生成)
- 评价指标(性能度量)
- 比较检验(假设检验)与
- 特征工程(预处理,归一化)
泛化误差越小越好,经验误差还真不一定越小越好(因为会“过拟合”)(短期检验期内越小越好)。死书活学>活电脑死学。多参加不同活动泛化误差小。以前的我:先减少误差后泛化误差,效率低了,做了重复工作,前期收获少。
过拟合的原因:
- 参数数量过多或者训练样本不足,解决方法:正则化-参数稀疏化(L1范数)或参数衰减(L2范数)。 样本数量过少怎么解决:样本扩充augment:目前最新的是生成对抗网络生成新的样本。
- 过训练,解决方法:验证集+early stop
怎么选择模型实际上还是根据模型的结果来,方法只是作为一个参考。
性能度量是衡量模型泛化能力的评价标准,反映了任务需求。
模型好不好:不仅取决于算法和数据,还取决于任务需求。
回归分析
分类:
- 错误率:误分类数/总数
- 精度:正确/总数
每类精度:每一类里的正确/总数。平均精度
混淆矩阵confusion matrix正规论文会有个图。横坐标实际,纵坐标预测,二维矩阵热图。
- 查准率:P=TP/(TP+FP) 偏好推荐
- 查全率:R=TP/(TP+FN)
评价分类器优劣:P-R图,ROC,AUC
聚类的指标:
外部指标:定义a,b,c,d,
- jaccard系数,
- FM指数(根号下查准率×查全率),
- rand指数(RI=2(a+d)/(m(m+1)))
内部指标:聚类结果的簇划分,DB指标,Dunn指数,要求类间距离大,类内距离小。
DBI=簇间距离/簇内距离
距离度量:曼哈顿距离,欧式距离,闵可夫距离,切比雪夫距离等等(可以作为研究工作的创新点之一)
比较检验——实质差别
得到的是测试性能,实质考量的是泛化性能,(毕竟你的测试结果可能随着测试集的变化而变化)
说白了,就是概率近似正确,就是大概率是没问题的。
1.利用二项检验,显著性检验=90%,如果落在了这个区域里面,说明可信的可能性在置信区间里面。
2.多次进行留出法或交叉检验法的情况下,利用t分布进行估计,假设泛化误差率与测试误差的均值相同。有论文是这么用的。
两个分类器性能比较-t分布。
偏差-方差分解
泛化误差是怎么得来的?偏差:期望输出与真实输出的差别;方差:同样大小的训练集的变动,所导致的性能变化;噪声