机器学习之基础理论相关了解

最新推荐文章于 2024-07-26 19:17:27 发布

静静喜欢大白

最新推荐文章于 2024-07-26 19:17:27 发布

阅读量662

点赞数 2

文章标签：工程师机器学习

一基础概念（学习起点）

VC 维。VC 维是一个很有趣的概念，它的主体是一类函数，描述的是这类函数能够把多少个样本的所有组合都划分开来。VC 维的意义在哪里呢? 它在于当你选定了一个模型以及它对应的特征之后，你是大概可以知道这组模型和特征的选择能够对多大的数据集进行分类的。此外，一类函数的 VC 维的大小，还可以反应出这类函数过拟合的可能性。
信息论。从某种角度来讲，机器学习和信息论是同一个问题的两个侧面，机器学习模型的优化过程同时也可以看作是最小化数据集中信息量的过程。对信息论中基本概念的了解，对于机器学习理论的学习是大有裨益的。例如决策树中用来做分裂决策依据的信息增益，衡量数据信息量的信息熵等等，这些概念的理解对于机器学习问题神本的理解都很有帮助。这部分内容可参考《 Elements of Information Theory 》这本书。
正则化和 bias-variance tradeoff。如果说现阶段我国的主要矛盾是“人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾”，那么机器学习中的主要矛盾就是模型要尽量拟合数据和模型不能过度拟合数据之间的矛盾。而化解这一矛盾的核心技术之一就是正则化。正则化的具体方法不在此讨论，但需要理解的，是各种正则化方法背后透露出的思想：bias-variance tradoff。在不同利益点之间的平衡与取舍是各种算法之间的重要差异，理解这一点对于理解不同算法之间的核心差异有着非常重要的作用。
最优化理论。绝大多数机器学习问题的解决，都可以划分为两个阶段：建模和优化。所谓建模就是后面我们会提到的各种用模型来描述问题的方法，而优化就是建模完成之后求得模型的最优参数的过程。机器学习中常用的模型有很多，但背后用到的优化方法却并没有那么多。换句话说，很多模型都是用的同一套优化方法，而同一个优化方法也可以用来优化很多不同模型。对各种常用优化方法的和思想有所有了解非常有必要，对于理解模型训练的过程，以及解释各种情况下模型训练的效果都很有帮助。这里面包括最大似然、最大后验、梯度下降、拟牛顿法、L-BFGS 等。

二有监督学习

有监督学习的应用面仍然是最广泛的，这是因为我们现实中遇到的很多问题都是希望对某个事物的某个属性做出预测，而这些问题通过合理的抽象和变换，都可以转化为有监督学习的问题。

学习步骤如下：

1、在学习复杂模型之前，先学习几个最简单的模型，典型的如朴素贝叶斯。朴素贝叶斯有很强的假设，这个假设很多问题都不满足，模型结构也很简单，所以其优化效果并不是最好的。但也正是由于其简单的形式，非常利于学习者深入理解整个模型在建模和优化过程中的每一步，这对于搞清楚机器学习是怎么一回事情是非常有用的。 朴素贝叶斯的模型形式通过一番巧妙的变换之后，可以得到和逻辑回归形式上非常统一的结果。

2、在掌握了机器学习模型的基础流程之后，需要学习两种最基础的模型形式：线性模型和树形模型，分别对应着线性回归/逻辑回归和决策回归/分类树。现在常用的模型，无论是浅层模型还是深度学习的深层模型，都是基于这两种基础模型形式变幻而来。而学习这两种模型的时候需要仔细思考的问题是：这两种模型的本质差异是什么？为什么需要有这两种模型？他们在训练和预测的精度、效率、复杂度等方面有什么差异？了解清楚这些本质的差异之后，才可以做到根据问题和数据的具体情况对模型自如运用。

3、掌握了线性模型和树形模型这两种基础形式之后，下一步需要掌握的是这两种基础模型的复杂形式。其中线性模型的复杂形式就是多层线性模型，也就是神经网络。树模型的复杂形式包括以 GDBT 为代表的 boosting 组合，以及以随机森林为代表的 bagging 组合。

三无监督学习

无监督学习的一大类内容是在做聚类，做聚类的意义通常可以分为两类：一类是将聚类结果本身当做最终的目标，另一类是将聚类的结果再作为特征用到有监督学习中。但这两种意义并不是和某种聚类方法具体绑定，而只是聚类之后结果的不同使用方式，这需要在工作中不断学习、积累和思考。而在入门学习阶段需要掌握的，是不同聚类算法的核心差异在哪里。

例如最常用的聚类方法中，kmeans 和 DBSCAN 分别适合处理什么样的问题？高斯混合模型有着什么样的假设？LDA 中文档、主题和词之间是什么关系？这些模型最好能够放到一起来学习，从而掌握它们之间的联系和差异，而不是把他们当做一个个孤立的东西来看待。

除了聚类以外，近年来兴起的 嵌入表示（ embedding representation ）也是无监督学习的一种重要方法。这种方法和聚类的差异在于，聚类的方法是使用已有特征对数据进行划分，而嵌入表示则是创造新的特征，这种新的特征是对样本的一种全新的表示方式。这种新的表示方法提供了对数据全新的观察视角，这种视角提供了数据处理的全新的可能性。此外，这种做法虽然是从 NLP 领域中兴起，但却具有很强的普适性，可用来处理多种多样的数据，都可以得到不错的结果，所以现在已经成为一种必备的技能。

机器学习理论方面的学习可以从《 An Introduction to Statistical Learning with Application in R 》开始，这本书对一些常用模型和理论基础提供了很好的讲解，同时也有适量的习题用来巩固所学知识。进阶学习可使用上面这本书的升级版《 Elements of Statistical Learning 》和著名的《 Pattern Recognition and Machine Learning 》。

四机器学习算法工程师领域现状

现在可以说是机器学习算法工程师最好的时代，各行各业对这类人才的需求都非常旺盛。典型的包括以下一些细分行业：

推荐系统。推荐系统解决的是海量数据场景下信息高效匹配分发的问题，在这个过程中，无论是候选集召回，还是结果排序，以及用户画像等等方面，机器学习都起着重要的作用。
广告系统。广告系统和推荐系统有很多类似的地方，但也有着很显著的差异，需要在考虑平台和用户之外同时考虑广告主的利益，两方变成了三方，使得一些问题变复杂了很多。它在对机器学习的利用方面也和推荐类似。
搜索系统。搜索系统的很多基础建设和上层排序方面都大量使用了机器学习技术，而且在很多网站和 App 中，搜索都是非常重要的流量入口，机器学习对搜索系统的优化会直接影响到整个网站的效率。
风控系统。风控，尤其是互联网金融风控是近年来兴起的机器学习的又一重要战场。不夸张地说，运用机器学习的能力可以很大程度上决定一家互联网金融企业的风控能力，而风控能力本身又是这些企业业务保障的核心竞争力，这其中的关系大家可以感受一下。

但是所谓“工资越高，责任越大”，企业对于算法工程师的要求也在逐渐提高。整体来说，一名高级别的算法工程师应该能够处理“数据获取→数据分析→模型训练调优→模型上线”这一完整流程，并对流程中的各种环节做不断优化。一名工程师入门时可能会从上面流程中的某一个环节做起，不断扩大自己的能力范围。除了上面列出的领域以外，还有很多传统行业也在不断挖掘机器学习解决传统问题的能力，行业的未来可谓潜力巨大。