对于“统计学习方法”的系统学习(二)

前提回顾:

1、损失函数(loss function)或代价函数(cost function)来度量预测错误的程度;

2、风险函数(risk function)或期望损失(expected loss)是损失函数的期望;

3、经验风险(empirical risk)或经验损失(empirical loss)是训练集的风险函数;

4、结构风险(structural risk)=经验风险+正则化项(regularizer)或罚项(penalty term);


(一)正则化项可以选择参数向量的L1或L2范数。

(二)将数据分为三部分:训练集、验证集、测试集。

(三)简单交叉验证:随机将数据分为两部分,分别作为训练集和验证集;

          S折交叉验证:随机将已给数据分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S中选择重复进行;最后选出S次评测中平均测试误差最小的模型。

(四)学习方法的泛化能力(generalization ability)是指由该方法学习到的模型的预测能力。泛化误差(generalization error)反映了学习方法的泛化能力。PS:泛化误差上界定理看不懂,这个不重要,只要知道它是评价这个方法好不好使的指标就行了。

(五)监督学习分为生成方法(generative approach)和判别方法(discriminative approach)。

        生成模型学习联合概率分布P(X,Y);判别方法学习条件概率P(Y|X)或f(X)。

(六)当数据变量Y取有限个离散值时,预测问题便成为分类问题。评价分类器性能的指标一般是分类准确率(0-1损失函数)。

        TP——将正类预测为正类数;

        FN——将正类预测为负类数;

        FP——将负类预测为正类数;

        TN——将负类预测为负类数;

精确率P=TP/(TP+FP);召回率R=TP/(TP+FN)

(七)标注问题。例如输入一个英文句字(观测序列),输出每一个单词的词性(标记序列或状态序列)。

(八)回归问题的学习等价于函数拟合。

           



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值