Learn with Different Output Space Y
二元分类(binary classification),只有两种可能性,一般用y={-1,+1}表示。是否发放信用卡就是典型的二元分类问题。
常见的二元分类问题:
多元分类问题
y={1,2,…,K}
回归问题
输出为y=R或者y=[lower,upper]∈R。(实数)
应用在:
结构化学习
输出空间有某一种特殊的结构在里面。y=structures
应用在:
机器学习按照输出空间划分,包括二元分类、多元分类、回归、结构化学习等。
Learning with Different Data Label yn
监督式学习(Supervised Learning),给xn也给yn。
非监督式学习(Unsupervised learning),只给xn。典型的是,聚类问题。
其他非监督式学习常见问题:
密度分析问题:如判断常发生事故的区域。异常检测问题:从正常的群体中找出异常情况。
半监督式学习(Semi-supervised Learning),有少部分即给xn也给yn,其他只给xn。如药物检测,考虑成本和实验限制问题,只有一部分有yn。照片标记,很麻烦,只能标出一部分即只有一部分有yn。
增强学习(Reinforcement Learning),无法直接给出正确的yn,对于错误的输出给惩罚,对于正确的输出给出奖励。
如线上广告系统,输入是顾客的资料,可能的输出是系统如何投放广告,根据用户点击(即奖励)学会如果投放。
机器学习按照数据输出标签yn划分,包括监督式学习、非监督式学习、半监督式学习和增强学习等。
Learning with Different Protocol f(xn,yn)
Batch Learning,喂一批资料给机器。
Online Learning ,数据一个一个进来,Hypothesis不断变动。如判断垃圾邮件,根据用户反馈更新Hypothesis。对PLA和增强学习都可以使用。
Active Learning,让机器问问题。我有这个输入,关于这个输入的答案(输出)是什么。常用于取得资料很贵的场合,不能标注所有资料。
按照不同的协议,机器学习可以分为batch, online, active。
Learning with Different Input Space X
根据输入X分类:
Concrete Feature
输入的特征与yn的关系。能从features中获得学习的信息,这包含人类的智慧。如之前提到的信用卡问题,features就是各个维度。
常见应用:
如硬币分类时的,size和mass。信用卡问题的各个维度的顾客信息。
Raw Feature
需要抽取具体特征。人或者机器将raw features转换为其对应的concrete features。
如对数字辨识:
Abstract Features
资料是十分抽象的数据。需要进行conversion/extraction/construction操作。
预测用户对音乐的评分,资料只有使用者和音乐的ID,需要抽取更多的特征features。如歌曲的曲风等。
根据输入X类型不同,可以分为concrete, raw, abstract。
Summary
按照输出空间,资料的种类,资料给机器的方式不一样,输入分类。