机器学习引论

最新推荐文章于 2024-09-13 19:03:07 发布

理物迷

最新推荐文章于 2024-09-13 19:03:07 发布

阅读量757

点赞数 10

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/2303_78834656/article/details/140536227

版权

6 篇文章 0 订阅

订阅专栏

从历史数据中总结规律，运用规律预测未知

怎么获取历史数据? 怎么总结规律? 怎么预测?

线路一：神经网络

人物	贡献	简介
McCulloch, Pitts, Hebb	概念，数学模型，学习法则
Rosenbaltt	感知机	可以识别字母，本质是单层神经网络
Minksy, Papert	证明感知机无法解决异或等线性不可分问题	多层神经网络思想启蒙
Werbos, Hinton	提出与发展误差反向传播（Error BP）算法	信号正向传播，误差反向传播权值，阈值不断调整结束条件：训练次数达到预设，输出误差低于阈值
Vapnik, Lerner	硬间隔线性决策边界向量机（SVM）	相关理论：最大间隔决策变量，基于松弛变量的规划问题求解技术, 统计学习理论
Boser, Guyon, Corinna	非线性 SVM	通过核方法得到软间隔~，被用于手写字符识别
Fukushima	新认知机
LeCun	将反向传播算法用于神经网络	邮政编码识别

其它相关概念

线路二：决策树

人物	贡献	简介
Bremian	分类回归树（CART）	利用Gini指标选择特征，劈分结点
Quinlan	ID3决策树	利用信息熵指标度量特征判别能力
Quinlan	C4.5 算法 (ID3改进)	可处理数值变量，符号变量容许部分特征值缺失
Bremian	自举汇聚法	又放回的重采样技术从原训练样本中重采样，获得多组训练集生成多个决策树利用投票或加权平均融合输出
Tin Kam Ho	随机决策森林	从样本和特征两个维度进行数据重采样，获得差异更大的决策树集合
	Boosting 算法	提升法，集成学习技术将预测精度低的弱学习器变为预测精度高的强学习器
Freund	Adaptive Boosting 算法	数据挖掘的十大算法之一具有一组分类器，前一次分类器中被分错的样本更大概率入选后一分类器训练样本加权平均，融合分类器输出

其它相关算法：

logistic 回归算法，贝叶斯方法，粗糙集方法（用于从数据中提取分类和回归模型）

k 均值聚类算法：
- 属迭代求解
- 随机选 k 个对象，产生聚类中心
- 对每个对象计算其与各中心的距离
- 将对象分配给离它最近的中心
- 每次分配结束后，依现有对象，重新计算中心
- 达到终止条件，结束
聚类：对象+中心

常见的终止条件：中心不再改变
模糊 C 均值（FCM）
- 属柔性划分聚类算法
- 计算隶属矩阵，使得被划分到同一簇的对象间相似度最大，不同簇间最小
  
  隶属度：数据点属于某个类的程度
- 适用于含有噪声信息的聚类任务
谱聚类算法
- 基础：图论，谱图理论
- 本质：把聚类问题转化为图的最优划分问题
- 数据集中中的对象 $\rightarrow$ 图顶点 V
- 顶点间相似度 $\rightarrow$ 连接边权值 $\epsilon$
其它：分层聚类算法，子空间聚类算法，密度峰值聚类算法，原型聚类算法