机器学习介绍
1.是什么
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径.
2.怎么来的
参考百度百科:
时间 | 主要研究内容 |
---|---|
20世纪50年代中叶到60年代中叶 | “有无知识的学习” |
20世纪60年代中叶到70年代中叶 | 将各个领域的知识植入到系统里 |
20世纪70年代中叶到80年代中叶 | 探索不同的学习策略和学习方法 |
20世纪80年代中叶 | 形式多样的集成学习系统研究正在兴起 |
参考CSDN:
时间段 | 机器学习理论 | 代表性成果 |
---|---|---|
二十世纪五十年代初 | 人工智能研究处于推理期 | A. Newell和H. Simon的“逻辑理论家”(Logic Theorist)程序证明了数学原理,以及此后的“通用问题求解”(General Problem Solving)程序。 |
已出现机器学习的相关研究 | 1952年,阿瑟·萨缪尔(Arthur Samuel)在IBM公司研制了一个西洋跳棋程序,这是人工智能下棋问题的由来。 | |
二十世纪五十年代中后期 | 开始出现基于神经网络的“连接主义”(Connectionism)学习 | F. Rosenblatt提出了感知机(Perceptron),但该感知机只能处理线性分类问题,处理不了“异或”逻辑。还有B. Widrow提出的Adaline。 |
二十世纪六七十年代 | 基于逻辑表示的“符号主义”(Symbolism)学习技术蓬勃发展 | P. Winston的结构学习系统,R. S. Michalski的基于逻辑的归纳学习系统,以及E. B. Hunt的概念学习系统。 |
以决策理论为基础的学习技术 | ||
强化学习技术 | N. J. Nilson的“学习机器”。 | |
统计学习理论的一些奠基性成果 | 支持向量,VC维,结构风险最小化原则。 | |
二十世纪八十年代至九十年代中期 | 机械学习(死记硬背式学习) 示教学习(从指令中学习) 类比学习(通过观察和发现学习) 归纳学习(从样例中学习) | 学习方式分类 |
从样例中学习的主流技术之一:(1)符号主义学习 (2)基于逻辑的学习 | (1)决策树(decision tree)。 (2)归纳逻辑程序设计(Inductive Logic Programming, ILP)具有很强的知识表示能力,可以较容易地表达出复杂的数据关系,但会导致学习过程面临的假设空间太大,复杂度极高,因此,问题规模稍大就难以有效地进行学习。 | |
从样例中学习的主流技术之二:基于神经网络的连接主义学习 | 1983年,J. J. Hopfield利用神经网络求解“流动推销员问题”这个NP难题。 1986年,D. E. Rumelhart等人重新发明了BP算法,BP算法一直是被应用得最广泛的机器学习算法之一。 | |
二十世纪八十年代是机器学习成为一个独立的学科领域,各种机器学习技术百花初绽的时期 | 连接主义学习的最大局限是“试错性”,学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”,参数调节失之毫厘,学习结果可能谬以千里。 | |
二十世纪九十年代中期 | 统计学习(Statistical Learning) | 支持向量机(Support Vector Machine,SVM),核方法(Kernel Methods)。 |
二十一世纪初至今 | 深度学习(Deep Learning) | 深度学习兴起的原因有二:数据量大,机器计算能力强。 |
机器学习分类
- 按学习方式分
1. 监督学习:指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有导师学习。监督学习的训练集要求包括输入和输出,输入数据中有导师信号,学习结果为函数。主要应用于分类和预测。
2. 无监督学习:其需要从数据集中发现隐含的某种结构,从而获得样本数据的结构特征,判断哪些数据比较相似。输入数据中无导师信号,学习结果为类别。无须对数据集进行标记,即没有输出。非监督学习目标不是告诉计算机怎么做,而是让它去学习怎样做事情。
3. 半监督学习:半监督学习是监督学习和非监督学习的结合,其在训练阶段使用的是未标记的数据和已标记的数据,不仅要学习属性之间的结构关系,也要输出分类模型进行预测。
4. 强化学习:又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题.
- 按任务类型分:
回归、分类、聚类、降维 生成模型与判别模型
机器学习方法三要素:
机器学习 = 数据(data) + 模型(model) + 优化方法(optimal strategy)
- 模型
模型就是用来描述客观世界的数学模型,模型是从数据里抽象出来的 - 策略
不同的策略,对应不同的模型的比较标准和选择标准
经验风险最小化是一个参数优化的过程,我们需要构造一个损失函数来描述经验风险
损失函数可以理解为我们预测一个数据错了给我们带来的代价 - 算法:
目标是让算法尽量高效,更少的计算机内存代价,更快的运算速度,更有效的参数优化结果 - 梯度下降法、牛顿法、拟牛顿法
- 模型评估指标:R2、RMSE、accuracy、precision、recall、F1、ROC、AUC、Confusion Matrix
- 复杂度度量:偏差与方差、过拟合与欠拟合、结构风险与经验风险、泛化能力、正则化
- 模型选择:正则化、交叉验证
- 采样:样本不均衡
- 特征处理:归一化、标准化、离散化、one-hot编码
- 模型调优:网格搜索寻优、随机搜索寻优