机器学习课堂笔记-1

最新推荐文章于 2022-08-17 16:10:50 发布

Cole～～

最新推荐文章于 2022-08-17 16:10:50 发布

阅读量345

点赞数

分类专栏：机器学习文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46106830/article/details/120266065

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

机器学习定义

机器学习应用与发展

机器学习常用术语

课程概述

期末60+平时40

回归算法、神经网络分类、聚类算法、降维算法

机器学习学习流程图如下：

1.回归分析：

线性回归
非线性回归

2.分类算法：

神经网络
支持向量机
朴素贝叶斯
K-近邻
决策树(随机森林)
深度神经网络

3.聚类算法：

K-means聚类
层次聚类
密度聚类
谱聚类
高斯混合聚类

4.降维算法：

主成分分析
线性判别分析
局部线性嵌入

参考书目：

西瓜书（周志华）
斯坦福大学】吴恩达：【斯坦福大学】2019零基础入门吴恩达机器学习到进阶教程_哔哩哔哩_bilibili

！！考前2次画重点！！

机器学习定义

归纳法：从特殊到一般

演绎法：从一般到特殊

传统编程：数据+规则—>结果

模拟人脑：数据+答案==>规则—>结果

机器学习流程图如下：

机器学习依赖数据，而目前大公司牢牢掌握着数据，有一个关键点在于数据的采集如何简单下来？

机器学习应用与发展

应用

小数据举例：

画作鉴别：笔触分析（降低成本：需要专业素养，专业训练培养，越专业花费时间，越节约成本时间，效率高，精度高）
风格转换（生成对抗网络）（问题在于合成细节处理是否到位）
古文献修复
（自动记录人工训练数据，自动选择决策（作为判断参考，不敢直接使用决策结果，具体问题需要具体分析，这叫“辅人性”）

大数据举例：

帮助奥巴马胜选

发展

机器学习发展历史回顾 - 知乎https://zhuanlan.zhihu.com/p/43833351

机器学习常用术语

有监督学习，无监督学习，半监督学习

数据集：训练集，测试集

假设（hypothesis），真相（ground-truth）

通过回归进行分类，成熟程度：0.95>0.5,熟瓜，0.1<0.5，生瓜

《机器学习》中的假设空间和版本空间_anqijiayou的博客-CSDN博客_假设空间https://blog.csdn.net/anqijiayou/article/details/79697900?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163194774316780357226967%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=163194774316780357226967&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-79697900.pc_search_result_cache&utm_term=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E5%81%87%E8%AE%BE%E7%A9%BA%E9%97%B4&spm=1018.2226.3001.4187归纳偏好：两个模型预测结果不一致，任何一个有效的机器学习算法必有其偏好，而学习算法的归纳偏好是否与问题本身匹配。

奥卡姆剃刀：如非必要，勿增实体。

NFL定理（no free lunch定理）：一个算法 $\xi _{0}$ 若在某些问题上比另一个算法 $\xi _{1}$ 好，必存在另一些问题， $\xi _{1}$ 比 $\xi _{0}$ 好。

具体的问题适用情况好即可，说明不适用情况。

模型选取：

评价方法（数据集生成）
评价指标（性能度量）
比较检验（假设检验） $\xi$ 与 $\xi _{0}$
特征工程（预处理，归一化）

泛化误差越小越好，经验误差还真不一定越小越好（因为会“过拟合”）（短期检验期内越小越好）。死书活学>活电脑死学。多参加不同活动泛化误差小。以前的我：先减少误差后泛化误差，效率低了，做了重复工作，前期收获少。

过拟合的原因：

参数数量过多或者训练样本不足，解决方法：正则化-参数稀疏化（L1范数）或参数衰减（L2范数）。样本数量过少怎么解决：样本扩充augment：目前最新的是生成对抗网络生成新的样本。
过训练，解决方法：验证集+early stop

怎么选择模型实际上还是根据模型的结果来，方法只是作为一个参考。

性能度量是衡量模型泛化能力的评价标准，反映了任务需求。

模型好不好：不仅取决于算法和数据，还取决于任务需求。

回归分析

分类：

错误率：误分类数/总数
精度：正确/总数

每类精度：每一类里的正确/总数。平均精度

混淆矩阵confusion matrix正规论文会有个图。横坐标实际，纵坐标预测，二维矩阵热图。

查准率：P=TP/(TP+FP) 偏好推荐
查全率：R=TP/(TP+FN)

评价分类器优劣：P-R图，ROC，AUC

聚类的指标:

外部指标：定义a，b，c，d，

jaccard系数，
FM指数（根号下查准率×查全率），
rand指数（RI=2（a+d）/(m(m+1))）

内部指标：聚类结果的簇划分，DB指标，Dunn指数，要求类间距离大，类内距离小。

DBI=簇间距离/簇内距离

距离度量：曼哈顿距离，欧式距离，闵可夫距离，切比雪夫距离等等（可以作为研究工作的创新点之一）

比较检验——实质差别

得到的是测试性能，实质考量的是泛化性能，（毕竟你的测试结果可能随着测试集的变化而变化）

说白了，就是概率近似正确，就是大概率是没问题的。

1.利用二项检验，显著性检验 $\alpha$ =90%，如果落在了这个区域里面，说明可信的可能性在置信区间里面。

2.多次进行留出法或交叉检验法的情况下，利用t分布进行估计，假设泛化误差率与测试误差的均值相同。有论文是这么用的。

两个分类器性能比较-t分布。

偏差-方差分解

泛化误差是怎么得来的？ $E(f:D)=bias^{2}(x)+var(x)+\xi ^{2}$ 偏差：期望输出与真实输出的差别；方差：同样大小的训练集的变动，所导致的性能变化；噪声

特征工程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Cole～～ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。