吃瓜教程第一次打卡

这是第一次参加并且打卡,也概览了西瓜书的前两章,只能说是对这些一窍不通,但也是有学习的兴趣,通过布置任务并且要打卡审核,让我知道该干什么,有了紧迫感,也就有了动力。

学习了前两章知识,让我对机器学习有了一定的了解。

一.绪论

机器学习定义:利用经验改善系统性能。(经验:训练数据.)

术语:数据集,属性。属性空间,特征向量,训练数据,假设,分类问题,回归,聚类,泛化能力等,监督学习和非监督学习(分类,回归属于前者,聚类属于后者)

假设空间:

归纳和演绎:归纳和演绎是科学推理的两大基本手段,前者是从特殊到一般的泛化,从具体的事情归结出一般性规律,后者则是从一般到特殊的特化过程,从基础原理推演出具体状况。

学习过程,就是从所有假设空间里进行搜索的过程,并找到与训练集匹配的假设

版本空间:不同的模型方案,可以搜索到不同的假设,这个假设的集合就叫版本空间。

感觉这个很有深意,便记录下来。没有免费午餐定理:(NFL定理:一个算法A比另一个算法B好,必定有另外一些问题算法B比算法A好.)没有最好的,只有最合适的!

二.模型评估与选择

1 经验误差与过拟合:

在训练集上的误差称为训练误差,

在测试集上的误差称为测试误差,

学习器在新样本上的误差称为泛化误差,

学习能力太强,把过度学习训练样本中的其他特性,称为过拟合 ,

学习能力太差,一般特性都没有学好,称为欠拟合。

2.评估方法

 1.留出法:直接将数据集划分成两个互斥的集合。(训练集和测试集的划分要尽可能保持数据分布的一致性。因为占比不同,导致训练出的模型各有不同,所以经常2/3~4/5的样本用于训练,其余样本用于测试)

 2.交叉验证法:将数据集进行划分成k个互斥且并为数据集的子集合,每次使用k-1个子集作为一个训练集,余下一个作为测试集,进行k次实验,同样,在划分数据集时候存在不同方式,每种划分方式下进行k次实验。一般,取10次划分方式,每次划分成10个子集,总共进行了100次实验。。。特别的,留一法,每次将每个样本作为一个子集,这样有可能提高准确性,但是代价比较大。
 3.自助法:是以上两个方法的折中。数据集D,从D 中m次随机有放回取样得到集合D,将D作为训练集合,D-D`作为测试集。这样会引起估计偏差。在数据集合足够大的时候,采用留出法或交叉验证法。

第一次接触这些,也都是一些陌生的名词,还是综合了b站上别人的视频和相应资料,然后自己整理,但还是有一些读不懂,也有很多没有整理,继续加油^_^。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值