a few useful things to know about machine learning

最新推荐文章于 2020-12-27 23:53:46 发布

caoeryingzi

最新推荐文章于 2020-12-27 23:53:46 发布

阅读量1.1k

点赞数

分类专栏：人工智能方向1.2--机器学习

本文链接：https://blog.csdn.net/caoeryingzi/article/details/8225606

版权

人工智能方向1.2--机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

a few useful things to know about machine learning，可以到主页下载：http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf

该文章，是在微博上看到的，就下载下来看了看。有不少博客也提到呢。

learning=representation+evaluation+optimization

就是我们说的feature, 分类器，优化。在学习过程中，首先特征很重要，然后特征提取后，如果去评估呢，用什么模型或者是用什么公式？evaluation的技术了。而在你选定了方法后，或者说选定了你要求解什么目标后，如果求解，就是一个优化过程，不同的优化方式，会得到不同的结果，也决定了你的learning的好坏吧。着每一个模块都是一个大坑啊，每年这中间的理论文、技术文都一大堆吧。

但是，也有一定的习惯性规律，在文章中，有个表，给出了常见的优化和评测算法。

generalization

扩展性，在训练数据上效果好，在测试数据上是什么效果呢？cross-validation。一般我们在评价和优化时，其实能做的就是对训练数据的误差估计，这并不代表我们能够得到最优的模型，往往局部优化比全局优化更好。

data alone is not enough

在generalization中，数据越多越好，我们的模型可能普适性更好。但是，只有数据是不行的。机器学习中有个说法，no free lunch。也就是说，没有任何一个模型能够适用于所有数据，或者说没有任何一种模型能够保证总是好过瞎猜。这个时候，我们需要对数据有所认识才行。文中提到，when we have a lot of knowledge about what makes examples similar in our domain, instance-based method may be a good choice，也就是说如果你了解样本之间的相似性，你可以选择instance-based method, 比如k-nn. 而当我们对其概率依赖有认知时，我们可以用graphical model.而当我们觉得数据属于if then类型的，那么基于规则的learning会更好些。作者提到，机器学习不可能从nothing开始，我们必须对数据有所认识。这就是我原来在做视频处理时遇到的问题，不同的数据，或者不同的representation，算法效果会很不同。

overfitting

过拟合，这是一个回避不了的问题。一般用cross validation进行避免。同时，还有一种方式是对evaluation增加regularization，同时还有另外一种方式是采用chi-square测试。-----这个我没有概念……不过，还是回到一个问题上，no free lunch，没有任何一种方法能够解决所有问题的，即总是有效的。有时候，你可能避免了overfitting了，但是你却陷入了underfitting了。

dimension

维度灾难，feature并不是越多越好。当维度增加时，可能反而会带来噪声，同时，维度变大时，很多数据分别已经不再是我们在低维度时认识的那样了。比如高斯分布，在维度高时，分布已经不再是集中在均值附近了。同时，有很多时候，维度低时学习效果好，并不代表维度高时也能取得好的效果，因为增加了噪声。

theoretical guarantee

这个是理论和实践的最佳冲突地点吧，我个人觉得。有很多learning 算法很漂亮，理论上感觉很美，但是这并不代表in practice是好的。文中提到，理论只是提供了实践中我们选择和设计算法的基础source understanding。

feature engineering is the key.

特征是关键，特征是更加困难的，因为这需要domain knowledge，而learning却不需要。machine learning 并不是一次性工作，而是一个不断重复的过程，特征选择，训练学习，分析结果，然后再调整数据或者特征的一个重复过程。

more data

数据越多越好。大多数时候，寻找更好的算法不如增加数据更有效。

learn many models not just one.

很多时候，我们并不是只用一个模型，我理解的就是一个工程可能需要很多models。比如前段时间看百度的推荐系统，他们前期在提取特征的关联时，用adboost，后面采用率预测用的是logistic regression。而在netflix比赛中，参赛选手们也是发现和采用了同样的多个model的组合方式。

representable 并不意味着learnable

大概我觉得有价值的东西是这些，其实在整个文章的tips，感觉practice的人更有感受吧。搞理论的人，很多问题并不care的.

caoeryingzi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
a few useful things to know about machine learning

a few useful things to know about machine learning，可以到主页下载：http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf该文章，是在微博上看到的，就下载下来看了看。有不少博客也提到呢。learning=representation+evaluation+optimizat
复制链接

扫一扫