监督学习分为三类,分类问题,监督问题,标注问题。
标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。
标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。
标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。
统计学习三要素:模型,策略,算法
风险期望或者平均损失。
正则化是结构风险最小化策略。
L1范数是指向量中各个元素绝对值之和。
L2范数是指向量中各元素的平方和然后开根。
正则化符合奥卡姆剃刀原理。
正则化对应于模型的先验概率。
https://www.cnblogs.com/yemanxiaozu/p/7680761.html
别人对于先验概率,后验概率的直观理解,非常值得学习。
简单交叉验证,S折交叉验证,留一交叉验证。
留一交叉验证就是S=N的特殊情况,一般用于数据集比较少的情况。
泛化误差上界。
监督学习方法又可以分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。
典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
对于二分类问题常用的评价标准是精确率和回召率。
TP ---- 将正类预测为正类数;
FN ---- 将正类预测为负类数;
FP ---- 将负类预测为正类数;
TN ---- 将负类预测为负类数;
我的理解:precision就是预测到的所有的正类中,真正的正类的比例,比如预测生病的场景中,预测到的病人中真正生病的人的概率。recall就是就所有正类预测的结果,比如一共有100个病人,所有预测出来的病人占的概率。
F1值,是精确率和召回率的调和平均。
标注也是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测的问题一个简单形式。
参考:https://www.cnblogs.com/yemanxiaozu/p/7680761.html
第一章的课后题答案。