统计学习方法学习笔记(第一章)

监督学习分为三类,分类问题,监督问题,标注问题。

标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。

标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。

标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场

统计学习三要素:模型,策略,算法

 

风险期望或者平均损失。

正则化是结构风险最小化策略。

L1范数是指向量中各个元素绝对值之和。

L2范数是指向量中各元素的平方和然后开根。

正则化符合奥卡姆剃刀原理。

正则化对应于模型的先验概率。

https://www.cnblogs.com/yemanxiaozu/p/7680761.html

别人对于先验概率,后验概率的直观理解,非常值得学习。

简单交叉验证,S折交叉验证,留一交叉验证。

留一交叉验证就是S=N的特殊情况,一般用于数据集比较少的情况。

泛化误差上界。

监督学习方法又可以分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。

典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
对于二分类问题常用的评价标准是精确率和回召率。

TP ---- 将正类预测为正类数;

FN ---- 将正类预测为负类数;

FP ---- 将负类预测为正类数;

TN ---- 将负类预测为负类数;

我的理解:precision就是预测到的所有的正类中,真正的正类的比例,比如预测生病的场景中,预测到的病人中真正生病的人的概率。recall就是就所有正类预测的结果,比如一共有100个病人,所有预测出来的病人占的概率。

F1值,是精确率和召回率的调和平均。

标注也是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测的问题一个简单形式。

参考:https://www.cnblogs.com/yemanxiaozu/p/7680761.html

第一章的课后题答案。

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值