机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;机器学习是一种偏向于技术的方法,研究目的包括模式识别、神经网络和深度学习;机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法,机器学习算法是一类从数据中自动分析获取规律并利用找到的规律对未知数据进行预测的算法。
人工智能(是科学,为机器赋予视觉、听觉、触觉、推理等智能)
机器学习(人工智能的算法) 三大基本范式:监督学习、无监督学习、强化学习 模式识别
表示学习(浅层自编码器)
深度学习(MLP)
1、大数据机器学习的主要特征
Ⅰ、与日俱增的数据量
Ⅱ、实验数据量的增加
Ⅲ、与日俱增的神经网络模型规模
Ⅳ、GPU的算力不断增强
Ⅴ、与日俱增的精度、复杂度和对现实世界的冲击
Ⅵ、深度学习框架:SparkMllib、Tensorflow...
Ⅶ、以机器学习方法为主干,以深度学习模型为重点,实现大数据机器学习的应用目标
2、机器学习的基本概念
Ⅰ、监督学习
有标准答案的试错学习,目的是学习一个由输入到输出的映射,称为模型;
模型的集合称为假设空间;
模型分为概率模型( 条件分布概率P(Y|X) )和非概率模型( 决策函数 Y = f(x) );
联合概率分布:假设输入和输出的随机变量X和Y遵循联合概率分布P(X , Y);
Ⅱ、无监督学习
根据一定的假设寻找数据内部存在的结构和规律;
Ⅲ、强化学习
延迟满足,根据结果调整行为;
Ⅳ、假设空间
学习过程:搜索所有假设空间与训练集进行匹配的过程;
Version space;
Ⅴ、学习三要素
方法 = 模型 + 策略 + 算法
策略:
- 损失函数和风险函数
- 0-1 损失函数、平方损失函数、绝对损失函数、对数损失函数…
- 损失函数的期望
- 风险函数、期望损失
- 经验风险、经验损失
- 经验最小化与结构风险最小化
方法: 求最优模型就是求解最优化问题
难点:全局调优、高效
Ⅵ、奥卡姆剃刀原理
如无需要,勿增实体
Ⅶ、没有免费的午餐定理
Ⅷ、训练误差与测试误差
Ⅸ、过拟合
特征选取:根据某种算法自动挑选出对预测结果有较大贡献的特征,从而减少过拟合,提高准确度,缩短训练时间。
1、REF: 递归特征删除,并在剩余特征上构造模型,从而使用最佳特征;
2、决策树:计算每个特征的相对重要性,从而进行特征选择(信息增益率);
Ⅹ、正则化
Ⅺ、泛化能力
经验风险最小函数
泛化能力
Ⅻ、生成模型与判别模型
机器学习模型 = 模型架构 + 目标函数 + 优化方法 + 正则化法
决策函数
条件概率分布
生成模型 --- 朴素贝叶斯法和隐马尔科夫模型
判别模型 --- K临近、感知机、决策树、Logstctic回归等
3、模型性能评估
Ⅰ、模型评估方法
泛化误差评估(训练集、验证集、测试集)
训练集与测试集的产生(留出法、交叉验证法、自助法)
Ⅱ、性能度量(错误率、精度)
查准率、查全率、FI 平衡点:查准率 = 查全率
二分类 - 混淆矩阵
F1度量 F₤度量
Ⅲ、偏差与方差