机器学习引论
从历史数据中总结规律,运用规律预测未知
怎么获取历史数据? 怎么总结规律? 怎么预测?
机器学习中的两大基本任务
- 分类:识别样本中的对象,样本 ⇒ \Rightarrow ⇒ 符号
- 回归:函数拟合,样本 ⇒ \Rightarrow ⇒ 数值
机器学习中的其它任务
- 序分类:样本 ⇒ \Rightarrow ⇒ 序结构变量(好,中,差)
- 概率分布:用于异常识别,发现新类 #手法
- 聚类算法:按数据属性,将样本划分为不同子集。将无序信息按规则组织。
“学习”分类
-
有监督学习:每个样本都输出为变量值
即:映射: x ( n ) → y n x^{(n)} \rightarrow y^{n} x(n)→yn,样本点 ( x ( n ) , y n ) (x^{(n)} , y^{n}) (x(n),yn)
-
无监督学习:样本不对应输出
-
半(弱)监督学习:部分样本有输出变量
理念,数据标注需要成本,不太可能对所有数据进行标注
-
强化学习:依据用户当前决策进行评估和奖惩
- 相关的陌生术语:马尔可夫决策过程(线代马尔可夫链),基于模式的强化学习,无模式的强化学习,主动强化学习,被动强化学习
- 相关变体:逆向强化学习,阶层强化学习,部分可观测系统的强化学习
- 相关算法:策略搜索算法,值函数算法
机器学习的发展
线路一:神经网络
人物 | 贡献 | 简介 |
---|---|---|
McCulloch, Pitts, Hebb | 概念,数学模型,学习法则 | |
Rosenbaltt | 感知机 | 可以识别字母,本质是单层神经网络 |
Minksy, Papert | 证明感知机无法解决异或等线性不可分问题 | 多层神经网络思想启蒙 |
Werbos, Hinton | 提出与发展 误差反向传播(Error BP)算法 | 信号正向传播,误差反向传播 权值,阈值不断调整 结束条件:训练次数达到预设,输出误差低于阈值 |
Vapnik, Lerner | 硬间隔线性决策边界向量机(SVM) | 相关理论:最大间隔决策变量, 基于松弛变量的规划问题求解技术, 统计学习理论 |
Boser, Guyon, Corinna | 非线性 SVM | 通过核方法得到 软间隔~,被用于手写字符识别 |
Fukushima | 新认知机 | |
LeCun | 将反向传播算法用于神经网络 | 邮政编码识别 |
其它相关概念
- BP 网络:多层前馈网络
- 深度学习:超大规模多层深度神经网络
- RBM:受限玻尔兹曼机
- 前馈神经网络
- 每一层为无监督的RBM
- 利用有监督的反向传播算法调优
- DBN:深度信念网络
- DBM:堆叠的 RBM
- CNN:卷积神经网络
线路二:决策树
人物 | 贡献 | 简介 |
---|---|---|
Bremian | 分类回归树(CART) | 利用Gini指标选择特征,劈分结点 |
Quinlan | ID3决策树 | 利用信息熵指标度量特征判别能力 |
Quinlan | C4.5 算法 (ID3改进) | 可处理数值变量,符号变量 容许部分特征值缺失 |
Bremian | 自举汇聚法 | 又放回的重采样技术 从原训练样本中重采样,获得多组训练集 生成多个决策树 利用投票或加权平均融合输出 |
Tin Kam Ho | 随机决策森林 | 从样本和特征两个维度进行数据重采样,获得差异更大的决策树集合 |
Boosting 算法 | 提升法,集成学习技术 将预测精度低的弱学习器变为预测精度高的强学习器 | |
Freund | Adaptive Boosting 算法 | 数据挖掘的十大算法之一 具有一组分类器,前一次分类器中被分错的样本更大概率入选后一分类器训练样本 加权平均,融合分类器输出 |
其它相关算法:
logistic 回归算法,贝叶斯方法,粗糙集方法(用于从数据中提取分类和回归模型)
聚类算法简介
-
k 均值聚类算法:
- 属迭代求解
- 随机选 k 个对象,产生聚类中心
- 对每个对象计算其与各中心的距离
- 将对象分配给离它最近的中心
- 每次分配结束后,依现有对象,重新计算中心
- 达到终止条件,结束
聚类:对象+中心
常见的终止条件:中心不再改变
-
模糊 C 均值(FCM)
-
属柔性划分聚类算法
-
计算隶属矩阵,使得被划分到同一簇的对象间相似度最大,不同簇间最小
隶属度:数据点属于某个类的程度
-
适用于含有噪声信息的聚类任务
-
-
谱聚类算法
- 基础:图论,谱图理论
- 本质:把聚类问题转化为图的最优划分问题
- 数据集中中的对象 → \rightarrow → 图顶点 V
- 顶点间相似度 → \rightarrow → 连接边权值 ϵ \epsilon ϵ
-
其它:分层聚类算法,子空间聚类算法,密度峰值聚类算法,原型聚类算法