机器学习引论

机器学习引论

从历史数据中总结规律,运用规律预测未知

怎么获取历史数据? 怎么总结规律? 怎么预测?

机器学习中的两大基本任务

  1. 分类:识别样本中的对象,样本 ⇒ \Rightarrow 符号
  2. 回归:函数拟合,样本 ⇒ \Rightarrow 数值

机器学习中的其它任务

  1. 序分类:样本 ⇒ \Rightarrow 序结构变量(好,中,差)
  2. 概率分布:用于异常识别,发现新类 #手法
  3. 聚类算法:按数据属性,将样本划分为不同子集。将无序信息按规则组织。

“学习”分类

  1. 有监督学习:每个样本都输出为变量值

    即:映射: x ( n ) → y n x^{(n)} \rightarrow y^{n} x(n)yn,样本点 ( x ( n ) , y n ) (x^{(n)} , y^{n}) (x(n),yn)

  2. 无监督学习:样本不对应输出

  3. 半(弱)监督学习:部分样本有输出变量

    理念,数据标注需要成本,不太可能对所有数据进行标注

  4. 强化学习:依据用户当前决策进行评估和奖惩

  • 相关的陌生术语:马尔可夫决策过程(线代马尔可夫链),基于模式的强化学习,无模式的强化学习,主动强化学习,被动强化学习
  • 相关变体:逆向强化学习,阶层强化学习,部分可观测系统的强化学习
  • 相关算法:策略搜索算法,值函数算法

机器学习的发展

线路一:神经网络

人物贡献简介
McCulloch, Pitts, Hebb概念,数学模型,学习法则
Rosenbaltt感知机可以识别字母,本质是单层神经网络
Minksy, Papert证明感知机无法解决异或等线性不可分问题多层神经网络思想启蒙
Werbos, Hinton提出与发展 误差反向传播(Error BP)算法信号正向传播,误差反向传播
权值,阈值不断调整
结束条件:训练次数达到预设,输出误差低于阈值
Vapnik, Lerner硬间隔线性决策边界向量机(SVM)相关理论:最大间隔决策变量,
基于松弛变量的规划问题求解技术,
统计学习理论
Boser, Guyon, Corinna非线性 SVM通过核方法得到
软间隔~,被用于手写字符识别
Fukushima新认知机
LeCun将反向传播算法用于神经网络邮政编码识别

其它相关概念

  1. BP 网络:多层前馈网络
  2. 深度学习:超大规模多层深度神经网络
  3. RBM:受限玻尔兹曼机
    • 前馈神经网络
    • 每一层为无监督的RBM
    • 利用有监督的反向传播算法调优
  4. DBN:深度信念网络
  5. DBM:堆叠的 RBM
  6. CNN:卷积神经网络

线路二:决策树

人物贡献简介
Bremian分类回归树(CART)利用Gini指标选择特征,劈分结点
QuinlanID3决策树利用信息熵指标度量特征判别能力
QuinlanC4.5 算法 (ID3改进)可处理数值变量,符号变量
容许部分特征值缺失
Bremian自举汇聚法又放回的重采样技术
从原训练样本中重采样,获得多组训练集
生成多个决策树
利用投票或加权平均融合输出
Tin Kam Ho随机决策森林从样本和特征两个维度进行数据重采样,获得差异更大的决策树集合
Boosting 算法提升法,集成学习技术
将预测精度低的弱学习器变为预测精度高的强学习器
FreundAdaptive Boosting 算法数据挖掘的十大算法之一
具有一组分类器,前一次分类器中被分错的样本更大概率入选后一分类器训练样本
加权平均,融合分类器输出

其它相关算法:

logistic 回归算法,贝叶斯方法,粗糙集方法(用于从数据中提取分类和回归模型)

聚类算法简介

  1. k 均值聚类算法:

    • 属迭代求解
    • 随机选 k 个对象,产生聚类中心
    • 对每个对象计算其与各中心的距离
    • 将对象分配给离它最近的中心
    • 每次分配结束后,依现有对象,重新计算中心
    • 达到终止条件,结束

    聚类:对象+中心

    常见的终止条件:中心不再改变

  2. 模糊 C 均值(FCM)

    • 属柔性划分聚类算法

    • 计算隶属矩阵,使得被划分到同一簇的对象间相似度最大,不同簇间最小

      隶属度:数据点属于某个类的程度

    • 适用于含有噪声信息的聚类任务

  3. 谱聚类算法

    • 基础:图论,谱图理论
    • 本质:把聚类问题转化为图的最优划分问题
    • 数据集中中的对象 → \rightarrow 图顶点 V
    • 顶点间相似度 → \rightarrow 连接边权值 ϵ \epsilon ϵ
  4. 其它:分层聚类算法,子空间聚类算法,密度峰值聚类算法,原型聚类算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值