机器学习与数据

2001年Bank和Bill做了这么一个实验

区分容易混淆的词,如(to, two, too)

比如:For breakfast I ate   two   eggs.

他们用了不同的算法:

  • Perceptron (Logistic regression)
  • Winnow
  • Memory-based
  • Naïve Bayes

并绘制了下图

可以看到,不同算法得到差不多的性能。但是它们有一个共同点:随着数据的增加,算法性能都在提升。

于是它们得到结论:It's not who has the best algorithm that wins. It's who has the most data.

这个结论有时是对的,有时又是不对的


合理运用大量数据

使用有很多参数的学习算法(比如,有很多特征的逻辑回归或线性回归;有很多隐含层的神经网路)

大量数据不太容易出现过拟合


遇到问题从以下两方面考虑

  • 人可以达到什么程度
    • 比如,对于“For breakfast I ate ___ eggs.”问题,一个英语好的人就可以解答的很好;对于“只给出房子的大小来预测房价”,一个很有经验的买房者也很难给出答案。 
  • 我们能获得很多数据吗?

 

转载于:https://www.cnblogs.com/qkloveslife/p/9888363.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值