吴恩达 机器学习 第六周 笔记+编程

本文介绍了机器学习中评价算法的重要概念,包括训练集与测试集的划分,学习曲线的分析,以及在垃圾邮件分类问题中如何优先处理。探讨了查准率和查全率的概念,强调了在偏斜类问题中单纯依赖准确率的不足,并提出了精度与召回率之间的权衡。最后,提到了F1分数作为评估指标的优势。
摘要由CSDN通过智能技术生成

Evaluating a Learning algorithm

假设在用linear regression 预测房价,然后你发现预测结果与实际结果偏差甚远。what should you try next?


然后 这里 引入两个概念,训练集和测试集。一般来说,训练集占70%,测试集占30%。

 

一般来说,都是先通过训练集求得θ然后再丢到测试集中测试测试误差。

图中,test error 公式跟linear regression的一样,就下标变了。

为了进一步精确我们的hypothesis我们引入交叉验证Cross validation

其中,训练集占60%,交叉验证集占20%,测试集占20%

以上所交代的是关于机器学习模式的选择,考虑该使用哪种多项式,然而regularization正则化中的λ 和 样本数量m也是影响算法性能的重要元素。以下引入 偏差(bias)和方差(variance)

前面我们所学习过的overfit和underfit中,underfit(欠拟合)就是典型的高bias,overfit则是典型的高variance

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值