机器学习第三讲学习笔记:
知识点1:根据输出y的取值范围,可以分为binary classification, multiclass classification, regression, structure learning and so on。
1. binary classification: 预测患者生病或没有生病,y={-1, +1};
2. multiclass classifiction: 预测患者得的是哪种癌症,y={1, 2, 3, ..., K};
3. regression: 预测患者多少天才能愈合,y=R or y=[lower, upper] R(bounded regression);
4. structure learning:输入是句子,输出是每个词的词性,这样就得到了这个句子的结构。
例如:I (pronoun) love (verb) ML (noun),句子结构y={PVN}
core tool: binary classification and regression.
知识点2:根据输入的training data{ }的标注信息,可以分为监督学习(supervised),非监督学习(unsupervised),半监督学习(semi-supervised)和增强型学习(reinforcement)。
1. 监督学习(supervised learning),每一个都有对应的;
例如:对1美分,5美分,10美分,25美分的一把硬币进行分类;
2. 非监督学习(unsupervised learning),并没有对应的,需要计算机进行分类;
例如:cluster: 文章的自动分类,消费者的分组;
density estimation:道路交通中的危险区域;
outlier detection:网络日志中的异常情况;
3. 半监督学习(semi-supervised learning),给少量的标记信息和大量的未标记信息进行学习;
例如:药物的效果预测;
4. 增强学习(reinforcement learning),一种持续改进型的学习,对于用好(goodness)和不好来表示。
core tool: supervised learning.
知识点3:根据与机器的沟通方式(protocol),可以分为batch, online, active and so on。
1. Batch,这是最常见的方式(duck feeding填鸭式),给一批Data给机器,让机器进行学习;
2. Online, 循序渐进的方式(passive sequential被动的连续的方式);例如:垃圾邮件的过滤,在原有g的基础上根据用户给出的新的垃圾邮件的data,计算出改进的g;
3. Active,让机器有问问题的能力(question asking);例如:在机器在学习有confuse的时候,进行讯问。
core protocol: Batch.
知识点4:根据x的输入形式,可以分为concrete feature, raw feature & abstract feature。
1. Concrete Feature(具体特征),例如:用户的信用卡申请资料表中的每个单元都是输入x的具体特征;
2. Raw Feature(原始特征),例如:图片上的手写数字识别,这个数字就是原始特征,需要转为具体特征,这需要有一定的Domain knowledge。
3. Abstract Feature(抽象特征),例如:例如在一个在线点歌系统中,根据输入的userid和songid来预测用户给歌曲的打分。特征越抽象对ML来说就是越复杂。
easy input: Concrete.