a few useful things to know about machine learning

a few useful things to know about machine learning, 可以到主页下载:http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf


该文章,是在微博上看到的,就下载下来看了看。有不少博客也提到呢。

learning=representation+evaluation+optimization

就是我们说的feature, 分类器,优化。在学习过程中,首先特征很重要,然后特征提取后,如果去评估呢,用什么模型或者是用什么公式?evaluation的技术了。而在你选定了方法后,或者说选定了你要求解什么目标后,如果求解,就是一个优化过程,不同的优化方式,会得到不同的结果,也决定了你的learning的好坏吧。着每一个模块都是一个大坑啊,每年这中间的理论文、技术文都一大堆吧。

但是,也有一定的习惯性规律,在文章中,有个表,给出了常见的优化和评测算法。


generalization

扩展性,在训练数据上效果好,在测试数据上是什么效果呢?cross-validation。一般我们在评价和优化时,其实能做的就是对训练数据的误差估计,这并不代表我们能够得到最优的模型,往往局部优化比全局优化更好。

data alone is not enough

在generalization中,数据越多越好,我们的模型可能普适性更好。但是,只有数据是不行的。机器学习中有个说法,no free lunch。也就是说,没有任何一个模型能够适用于所有数据,或者说没有任何一种模型能够保证总是好过瞎猜。这个时候,我们需要对数据有所认识才行。文中提到,when we have a lot of knowledge about what makes examples similar in our domain, instance-based method may be a good choice,也就是说如果你了解样本之间的相似性,你可以选择instance-based method, 比如k-nn. 而当我们对其概率依赖有认知时,我们可以用graphical model.而当我们觉得数据属于if then类型的,那么基于规则的learning会更好些。作者提到,机器学习不可能从nothing开始,我们必须对数据有所认识。这就是我原来在做视频处理时遇到的问题,不同的数据,或者不同的representation,算法效果会很不同。

overfitting

过拟合,这是一个回避不了的问题。一般用cross validation进行避免。同时,还有一种方式是对evaluation增加regularization,同时还有另外一种方式是采用chi-square测试。-----这个我没有概念……不过,还是回到一个问题上,no free lunch,没有任何一种方法能够解决所有问题的,即总是有效的。有时候,你可能避免了overfitting了,但是你却陷入了underfitting了。


dimension

维度灾难,feature并不是越多越好。当维度增加时,可能反而会带来噪声,同时,维度变大时,很多数据分别已经不再是我们在低维度时认识的那样了。比如高斯分布,在维度高时,分布已经不再是集中在均值附近了。同时,有很多时候,维度低时学习效果好,并不代表维度高时也能取得好的效果,因为增加了噪声。

theoretical guarantee

这个是理论和实践的最佳冲突地点吧,我个人觉得。有很多learning 算法很漂亮,理论上感觉很美,但是这并不代表in practice是好的。文中提到,理论只是提供了实践中我们选择和设计算法的基础source understanding。

feature engineering is the key.

特征是关键,特征是更加困难的,因为这需要domain knowledge,而learning却不需要。machine learning 并不是一次性工作,而是一个不断重复的过程,特征选择,训练学习,分析结果,然后再调整数据或者特征的一个重复过程。

more data 

数据越多越好。大多数时候,寻找更好的算法不如增加数据更有效。

learn many models not just one.

很多时候,我们并不是只用一个模型,我理解的就是一个工程可能需要很多models。比如前段时间看百度的推荐系统,他们前期在提取特征的关联时,用adboost,后面采用率预测用的是logistic regression。而在netflix比赛中,参赛选手们也是发现和采用了同样的多个model的组合方式。


representable 并不意味着learnable



大概我觉得有价值的东西是这些,其实在整个文章的tips,感觉practice的人更有感受吧。搞理论的人,很多问题并不care的.




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值