这个作者确实很厉害,很多总结都属于真知灼见。也可能是他们学界的主流想法差不多,我多重验证的结果。
炒作和未来
每个技术发展都会出现大小的波动。炒作过分,期望落空,投资撤资会迎来寒冬。但长期来看,机器学习已经并且能够成为更有实用价值的东西。
Dont believe the short-term hype, but do believe in the long-term vision.
发展历史
学了深度学习之后确实会有万物皆可深度学习的想法。
If deep learning is your first contact with machine learning, then you may find yourself in a situation where all you have is the deep-learning hammer, and every machine-learning problem starts to look like a nail. The only way not to fall into this trap is to be familiar with other approaches and practice them when appropriate.
统计方法
贝叶斯,逻辑回归之类。不展开。
早期神经网络
不展开。
核方法
基于核方法的svm主要任务有两个:
- 将数据映射到高维空间,方便分类
- 使得决策边界尽可能大
但是问题在于,论文中通常可以取得很好的成果,但是实际应用的时候会发现计算非常复杂。所以就出现了kernel tricks——核函数。
- 核函数的作用就是使得高维计算可以在低维上以简单的形式完成。
以上是现代svm的基本体系,svm的特点是,核函数不是学习来的,而是手动设计的,而学习的只有超平面和决策边界。
svm的缺点:
- 难以拓展到大数据集环境
- 浅层结构,需要提取有用的特征,特征工程非常关键。
机器学习目前的终点
就是对于结构化数据,少量数据,特别有效果的gradient boosting machine。最近几个比赛也体会到了,基本就统治了这一块。像XGBoost,CatBoost
深度学习
svm的缺点是难以拓展到大数据集,包括gradient boosting machine,难以解决感知的问题。这时候深度学习就来了。从这个角度来说,深度学习其实也是一种高维平面解决问题的方法,而且它会自动进行特征的联合学习——浅层机器学习模型叠加并不能做到,即一个特征改变,其他特征跟着也得发生变化,所以堆叠浅层模型是没有用的。