吃瓜教程第一次打卡

you should know me

已于 2022-03-15 18:40:11 修改

阅读量1.1k

点赞数

文章标签：机器学习人工智能

于 2022-03-15 18:32:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56521651/article/details/123502796

版权

这是第一次参加并且打卡，也概览了西瓜书的前两章，只能说是对这些一窍不通，但也是有学习的兴趣，通过布置任务并且要打卡审核，让我知道该干什么，有了紧迫感，也就有了动力。

学习了前两章知识，让我对机器学习有了一定的了解。

一.绪论

机器学习定义：利用经验改善系统性能。（经验：训练数据.)

术语：数据集，属性。属性空间，特征向量，训练数据，假设，分类问题，回归，聚类，泛化能力等，监督学习和非监督学习（分类，回归属于前者，聚类属于后者）

假设空间：

归纳和演绎：归纳和演绎是科学推理的两大基本手段，前者是从特殊到一般的泛化，从具体的事情归结出一般性规律，后者则是从一般到特殊的特化过程，从基础原理推演出具体状况。

学习过程，就是从所有假设空间里进行搜索的过程，并找到与训练集匹配的假设

版本空间：不同的模型方案，可以搜索到不同的假设，这个假设的集合就叫版本空间。

感觉这个很有深意，便记录下来。没有免费午餐定理:(NFL定理：一个算法A比另一个算法B好，必定有另外一些问题算法B比算法A好.)没有最好的，只有最合适的!

二.模型评估与选择

1 经验误差与过拟合：

在训练集上的误差称为训练误差，

在测试集上的误差称为测试误差，

学习器在新样本上的误差称为泛化误差，

学习能力太强，把过度学习训练样本中的其他特性，称为过拟合，

学习能力太差，一般特性都没有学好，称为欠拟合。

2.评估方法

1.留出法：直接将数据集划分成两个互斥的集合。（训练集和测试集的划分要尽可能保持数据分布的一致性。因为占比不同，导致训练出的模型各有不同，所以经常2/3~4/5的样本用于训练，其余样本用于测试）

2.交叉验证法：将数据集进行划分成k个互斥且并为数据集的子集合，每次使用k-1个子集作为一个训练集，余下一个作为测试集，进行k次实验，同样，在划分数据集时候存在不同方式，每种划分方式下进行k次实验。一般，取10次划分方式，每次划分成10个子集，总共进行了100次实验。。。特别的，留一法，每次将每个样本作为一个子集，这样有可能提高准确性，但是代价比较大。
3.自助法：是以上两个方法的折中。数据集D，从D 中m次随机有放回取样得到集合D，将D作为训练集合，D-D`作为测试集。这样会引起估计偏差。在数据集合足够大的时候，采用留出法或交叉验证法。

第一次接触这些，也都是一些陌生的名词，还是综合了b站上别人的视频和相应资料，然后自己整理，但还是有一些读不懂，也有很多没有整理，继续加油^_^。

you should know me

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜教程第一次打卡

这是第一次参加并且打卡，也概览了西瓜书的前两章，只能说是对这些一窍不通，但也是有学习的兴趣，通过布置任务并且要打卡审核，让我知道该干什么，有了压迫感，也就有了动力。学习了前两章知识，让我对机器学习有了一定的了解。一.绪论机器学习定义：利用经验改善系统性能。（经验：训练数据.)术语：数据集，属性。属性空间，特征向量，训练数据，假设，分类问题，回归，聚类，泛化能力等，监督学习和非监督学习（分类，回归属于前者，聚类属于后者）假设空间：归纳和演绎：归纳和演绎是科学推理的两大基本手段，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。