目录
Video1: Learning with Different Output Space
Video2: Learning with Different Data Label
Video3: Larning with Different Protocol
Video4: Learning with Different Input Space
Video1: Learning with Different Output Space
二元分类问题
- 信用卡发卡问题是二元分类问题
- 输出 yes/no
多分类问题
- 输出的值域是多种类别
回归问题
- 输出是连续的数值
Structured Learning
- 输入与输出,都是带有结构、模式的数据
- 以词性标注任务为例:
- 输入: 单字序列
- 输出: 词性序列
- 底层是复杂的多分类问题
- 输入与输出都是有多种组合变化的可能
Video2: Learning with Different Data Label
Supervised Learning
- 知道数据的正确答案
- E.g. 硬币多分类 (给定硬币特性数据、类别)
Unsupervised Learning
- 不知道数据的正确答案
- E.g. 硬币多分类 (给定硬币特性数据、但没有类别数据)
- 其他非监督学习的例子:
- Density estimation: 非监督的回归问题
- Outpier detection: 非监督的二元分类
Semi-supervised Learning
- 数据中,部份知道正确答案
- 因为具标据的数据不容易取得,通常需要大量人力、时间进行标注
- 半监督学习能够利用少量标注数据与大量的未标注数据,建立模型
Reinforecement Learning
- 有些情况下,正确的答案并不明确,只能给模型隐性的答案
- 训练宠物坐下 ... 何谓正确的坐下?
- 训练打牌 ... 何谓正确的出牌决策?
- 透过奖励与惩罚来辅助模型学习
总结
Video3: Larning with Different Protocol
Batch Learing
- 从一批数据得到模型,没有更新机制
Online Learning
- 随着新的数据进入,模型能够不断更新
Active Learning
- protocol: 可以视为是学习的哲学
- Batch: 填鸭式教育
- Online: 被动的持续学习
- Active: 主动提问
- 主动学习能让电脑主动提问,提升学习效率,降低所需的标注数据量
Video4: Learning with Different Input Space
Concrete Feature
- 回顾信用卡发卡问题,其输入是比较具体、并且与输出有相关的特征
- 这类特征被称为 Concrete Feature
- 通常是经过处理的
- 特征本身带有人类对该领域的知识
- 在ML中是相对容易使用的输入
Raw Features
- 在手写文字识别中,有两种特征可以作为输入:
- Concrete features: 文字的对称性、文字的密度
- Raw features: 16 x 16 的像素强度
- Raw features 通常只具备简单的物理意义,因此在 ML 中较难被使用
- 许多问题中,我们搜集到的数据都是 raw features,像是:
- 语音识别: 声音讯号
- 图像识别: 图像讯号
- 通常会做进一步处理,将 raw features 转换成更有意义的 concrete features
- 透过人工进一步处理: 特征工程
- 透过机器进一步处理: 深度学习
Abstract Features
- 在用户的音乐评分预测问题中,只有抽象数据,这类数据并不具物理意义
- 在 ML 中,这种特征是最难被使用的
- 一种做法是,找到用来描述特定用户、音乐的特征,并根据这些特征来预测
- 这些特征可以透过特征工程、模型自动学习来进一步取得