统计学习方法--笔记1

1.2 监督学习


输入变量和输出变量 均为连续:回归问题
输出变量 离散的为分类问题
输入变量和输出变量均为 变量序列的为标注问题
标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列,即分类-》一个值,标注-》 一个向量
监督学习的目的:在于学习一个由输入到输出的映射,这一映射由模型表示


1.3  统计学习三要素


方法=模型+策略+算法

模型:就是所要学习的条件概率分布或决策函数。

策略:使用什么准则学习或选择最优模型
    损失函数(风险函数):度量预测错误的程度,非负数值函数

            0-1损失函数
            平方损失函数
            绝对损失函数
            对数损失函数(对数似然损失函数):-logP(Y|X)

        风险函数或期望损失就是损失函数的期望,学习的目标就是选择期望风险最小的模型

        模型f(X)关于训练数据集的平均损失称为经验风险(经验损失)
    经验风险最小化 和 结构风险最小化
    经验风险最小:最优模型 如极大似然估计,但是当样本小的时候,会出现过拟合
    结构风险最小化SRM:为了防止过拟合提出 ==等价于正则化
    就在经验风险上加上表示模型复杂度的正则化项或罚项,J(f)为模型复杂度,模型越复杂,J(f)越大
算法:学习模型的具体计算方法


1.4 过拟合


    过拟合:一味追求提高对训练数据的预测能力。指学习时选择的模型多包涵参数过多
    模型越复杂,训练误差越小,测试误差会先减小后增大

1.5 正则化


        结构风险最小化的实现,加入罚项
      交叉验证
    训练集:训练模型
    验证集:选择模型
    测试集:评估模型
        简单交叉验证
        S折交叉验证
        留一交叉验证:S=N的S折交叉验证

1.6 泛化能力


    泛化能力是指由该方法学习到的模型对未知数据的预测能力。
    主要是通过测试误差来评价学习方法的泛化能力。
    泛化误差上界有两部分相加组成:1.训练误差,正相关性 2.N的单调递减函数


1.7 生成模型与判别模型

    监督学习方法又可以分为 生成方法 判别方法
    所学到的模型分别叫做 生成模型 与 判别模型 。
    生成方法是有数据学习联合概率分布,然后求P(Y|X)
        典型的生成模型有:朴素贝叶斯和隐马尔可夫模型
   
    判别方法由数据直接学习决策函数或者P(Y|X)作为预测的模型
    判别分析关心的是对给定的X,应该预测怎样的Y
        典型的判别模型:k邻近、决策树、最大熵模型、SVM、提升方法、条件随机场、逻辑斯蒂回归模型
    区别:
    1. 生成方法可以还原联合概率分布P(X,Y),判别不能
    2. 生成方法学习收敛速度更快,样本容量增加的时候,学习的模型能够更快的收敛于真是模型
    3. 当存在隐变量的时候,可以用生成方法,判别不能
    4. 直接学习决策函数或者P(Y|X)作为预测的模型,精确率更高
    5. 判别方法可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题


1.8 分类问题

    精准率与召回率

    TP:T->T
    FN:T->F
    FP:F->T
    TN:F->F

    准确率:TP+TN/ALL
    精准率:P=TP/(TP+FP)
    召回率:R=TP/(TP+FN)
    F1值:上面两个的调和平均:2/F1=1/P+1/R
    学习方法:k近邻、感知机、朴素贝叶斯、神经网络、Winnow

1.9 标注问题


    分类问题的推广:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列
    统计学习方法:隐马尔科夫模型、条件随机场
    举个例子:给一个单词组成的英文句,分析每个单词的词性

1.10 回归问题


    用于预测输入变量和输出变量之间的关系,等价于函数拟合
    按照输入变量的个数,分为一元回归和多元回归
    按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归
    损失函数为平方损失函数,可由最小二乘法来解决




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值