机器学习第一课（介绍）

笔记本IT

已于 2023-07-02 22:12:31 修改

阅读量842

点赞数 1

分类专栏：机器学习python 文章标签：机器学习 python 聚类

于 2023-06-13 15:53:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/httpsssss/article/details/131125254

版权

机器学习python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

实现流程

数据输入->数据基本处理->特征工程->训练->模型评估->新数据输入->预测结果
在这里插入图片描述
数据类型：
类型一：特征值+目标值
类型二：只有特征值

一、数据基本处理

达到的标准
在这里插入图片描述

二、特征工程

在这里插入图片描述

三、机器学习（模型）分类：

监督学习

定义：有目标值
分类：回归问题、分类问题
回归算法：线性回归、岭回归
分类算法：K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

无监督学习

定义：意味着输入数据没有被标记，也没有确定的结果(无具体目标值)。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类）试图使类内差距最小化，类间差距最大化。
聚类算法：K-means、PCA降维手段

半监督学习

定义：可以简单理解为一部分数据有目标，而一部分数据无目标。主要使用于监
督学习效果不能满足需求时，就使用半监督学习来增强学习效果。

强化学习

定义：主要用来自动进行决策，并且可以做连续决策。也就是说，整个过程都是一个
动态的，上一步数据的输出是下一步数据的输入。

四、模型评估

定义： 模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
模型评估主要是评估模型误差的大小。误差主要分为：

经验误差：在训练集上面的误差
泛化误差：对未知数据上的误差

保留测试集的方法：
◆ 留出法
◆ K折交叉验证
◆ 自助法

留出法：
每层数据随机抽取N成训练集与随机抽取M成测试集，这样做若干次，重复实验，取平均值

K折交叉验证法：
分十份，每次留一份作为测试集【数据量少时非常有效，数据量大时对算力要求比较高】

自助法：
初始化数据集D，共有10个元素。 D=[1,2,3,4,5,6,7,8,9,10]
训练集D’：从D中随机有放回的抽取10个。比如： D’=[2,2,1,1,5,4,7,8,9,10]

会有一些数不一定能够选择到
- 假设一共为m个数，某一个数被选到的概率为1/m
- 该数没有被选到的概率: (1-1/m)
- 一共选了m次，没选到的概率总共为： (1-1/m)**m
m趋向于无穷的，就会有一个极限值为 1/e=0.368

这样即可保证：
1.原本数据集D、训练集与测试集的样本个数都可一致
2. 初始数据D 中大概会有36.8%的数据没在训练集 D’ 中出现。同理可得，初始数据集D中，约有36.8%的数据没在测试集中出现
自助法适用于：数据集较少、难以有效划分测试机与训练集
缺陷：分布偏差引来的估计偏差。

训练集(训练模型)+测试集(模型评估)+验证集(调参)

性能度量

回归问题：
分类问题

方案一
错误率与精准率
在这里插入图片描述
缺陷：（只能判断是与不是）
数据集{0,1,2,3,4,5,6,7,8,9,10} ->> =5正确的，!=5的时候不正确 ->> 错误率=10/11

方案二
查准率与查全率：
用一个例子说明：
现有模型预测：
100条新闻，60条你真正感兴趣的，40你真正不感兴趣的。
平台推送的结果：预测70条你感兴趣的，预测30条你不感兴趣的
在这里插入图片描述
查准率：他推送的广告(预测)有多少比例是你真的感兴趣的
查全率：你真正感兴趣的广告有多少真的被预测成功了

模型评估：
模型评估用于评价训练好的模型的表现效果，其表现效果大致可分为两类：欠拟合、过拟合。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习第一课（介绍）

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。模型评估主要是评估模型误差的大小。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

笔记本IT 您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。