Lecture 2: Supervised machine learning

这周主要讲监督学习

首先介绍了下监督学习的概念以及过拟合和欠拟合,这些就不再赘述了。

K邻近法对数据的结构没有做假设,虽然预测较为正确,但是通常不稳定。
线性拟合对数据的结构做了些假设,结果较为稳定,但可能不太精确。
如果有大量的特征,尤其是很多特征值为0的情况下,最好不要用K邻近法。

SVM支持向量机,SVM可以用于classification和regression。
具体可以参考《统计机器学习》一书,里面讲的非常清楚。
需要注意的是对dataset进行预处理,会大大提高test accuracy。
Summary
这里写图片描述

Cross-validation
不同于之前介绍的简单的将数据分为train dataset 和 test dataset,这里将数据分为n个folder,训练n个model,分别用第n个folder的数据作为 test set。这样对模型的评估更加可靠。还可以采用scikit里面的cross_validation函数来观察parameter对于模型的影响。

Decision Tree
具体也可参考《统计机器学习》,这里主要介绍了防止overfitting的方法:
pre-pruning,也就是early stop,防止decision tree变得过于复杂。
post-pruning,先建立一个复杂的decision tree,之后再将其调整为一个简单的decision tree。
scikit-learn只完成了pre-pruning,可以控制最大的深度,或者最多的节点数量等
Summary
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值