统计学习方法(第一章)
1定义
基于数据,利用计算机构建概率统计模型,用模型对未知数据进行预测。
统计学习方法:监督学习方法,非监督学习方法,半监督学习方法,强化方法。(是否需要标注数据)
监督学习方法:分类(输出变量是有限个离散变量),回归(输入,输出变量都是连续变量),标注(输入,输出变量都是序列变量)
2三要素
模型:就是可能的函数,所有的函数组成假设空间 。假设数据是独立同分布的,是由函数生成的。现在已知数据,求生成这些数据的最大可能函数。模型由概率模型P(Y|X)或者决策函数Y=f(X)表示。
分为生成模型和判别模型。
生成模型:p(Y|X) = p(X,Y)/P(X)。是根据联合概率生成条件概率。如朴素贝叶斯估计,隐马尔可夫模型。
优点:模型收敛快,可以知道联合概率分布p(X,Y),可以含有隐函数。
判别模型:直接学习条件概率p(Y|X)或决策函数。
优点:准确率高。
策略:就是选择损失函数,定义经验损失最小化。策略就是定义模型的经验损失最小化的损失函数。损失函数L(Y,f(X))一般包括0-1损失函数,平方损失函数(一般回归用),绝对值损失函数,对数损失函数。
算法:就是如何使经验损失最小化,从而选择最优的模型。
经验损失最小化容易导致模型过拟合(在训练数据上准确率越来越高,在测试数据上越来越低),需要在经验损失最小化函数上加一个模型复杂度的罚项,即正则化项。一般包括第一范数,第二范数等。
除了正则化外,还通过交叉验证的方法,选择最优的模型。
模型评价
准确率,精确率,召回率,F1