主要参考书籍:
《机器学习实战》
李航的《统计学习方法》
《机器学习理论与算法》
机器学习,简称ML(
machine learning);数据挖掘,简称DM(
Data Mining)。
如果问数据挖掘与机器学习有何区别,那就是术和道的区别,机器学习侧重理论,数据挖掘偏重应用。
而这些,都必须基于统计学习的理论。
1、什么是学习?
引用希尔伯特对学习的定义:“
如果一个系统能够通过执行某个过程改进它的性能,这个过程就是学习。”机器学习的目的就是使系统从不断获取的知识中提升自己的性能。
2、数据
统计学习的对象是数据,数据是知识的来源,因此,数据的获取和处理是相当重要的,不过在讨论理论时我们假设数据已经获取好了。在统计学习中
用变量或变量组来表示数据,根据其
组成元素类型可细分为离散型和连续型两类。
统计学习理论中有两个关于数据的重要假设,分别为:
a.同类数据具有一定的统计规律,可以用概率分布来描述这种规律。
b.作为学习对象的训练数据集合中的数据是独立同分布的。
来分析一下吧,首先数据要符合一定的统计规律,如果数据没有规律那还学习干嘛,不是做无用功吗?
第二条假设数据独立同分布,
很多统计学的公式都是建立在数据独立同分布之上的,因此,进行统计分析必须假设数据是独立同分布的,这样分析起来就会很方便,省去很多复杂的东西。
注意数据可能不是完全独立同分布的,但是对于大量数据,这种假设是广泛适用的。何乐而不为呢?
3、输入输出相关概念
学习的输入和输出的所有可能取值的集合分别叫做输入空间和输出空间,一般而言,输出空间小于输入空间。如果具体到输入实例,可以将输入空间看成特征空间,其中的每一维为一个特征。
4、学习的三要素。
统计学习三要素包括:
模型:
即假设空间,或者说是一组函数的集合,这组集合中的函数都能将输入空间映射到输出空间,但是映射的准确性却大不相同,统计学习的目标在于从假设空间中选取最优模型,该模型能尽可能准确的将输入空间映射到输出空间;
策略:即寻找最优模型的准则,怎么评价假设空间中函数的优劣,在这个准则下找到满足条件的最优模型,这个准则和损失函数、风险函数紧密相关;
算法:按照某个评价准则(如损失函数输出最小)选取最优模型的方法。
在监督学习中,继续细分模型为条件概率分布和决策函数。这样模型的假设空间即为所有可能的条件概率分布或决策函数。条件概率模型的输出为实例属于那个类别的概率,取概率最大的那个类别作为最终输出,而另一种情况则直接使用决策函数的值作为输出。在条件概率模型中,输入和输出都是随机变量,而决策函数模型中,输入输出都是变量。
判定模型好坏的准则很重要,它直接决定了我们对最优模型有哪些要求。传统的统计学习追求经验风险最小化ERM,给模型的求解带来了很多问题,现在的统计学习则追求结构风险最小化SRM,不论是前者还是后者,都是追求期望风险最小化,只不过前者是用经验风险来逼近期望风险,后者用结构风险(经验风险+置信风险)逼近期望风险。