分布式机器学习算法、理论与实践 学习笔记
写在前面
本人是电子信息领域相关专业女研究生一枚,研究方向下一代移动通信网络。本科时期玩心未泯……未深入接触科研。现阶段摸索进入科研状态,有一定知识基础,自学机器学习、分布式机器学习相关方法知识~ 比较看重知识的体系性与连贯度,以及自己的思维流等,将较为重要的概念内容记录于此!
1 人工智能的发展
分布式机器学习的必要性:在大数据支撑下,庞大计算机集群,训练大规模机器学习模型
2 机器学习基础
- 机器学习基本概念
1)经验风险、期望风险、结构风险概念区分
参考: 机器学习优化问题-经验风险、期望风险、结构风险.
2)分类 :学习目标、训练数据特征、模型复杂度、模型功能 - 机器学习基本流程
训练数据集
分类模型(特征抽取、参数设计)
误差函数(依赖于解决的问题)→损失函数(数学性质更好,与误差函数具有一定的数学关系)
优化算法 - 常用损失函数
Hinge损失函数
指数损失函数
交叉熵损失函数:假设预测模型决定了标签的概率分布
损失函数对于0-1误差具有统计一致性,即样本趋于无穷多时,按照最小化损失函数找到的最优模型也是在0-1误差意义下的最优模型 - 常用机器学习模型
1)线性模型、Logistic回归(适合与交叉熵函数进行训练)
非线性空间复杂组合关系如何由线性组合关系得到?
① 非线性预变换
② 核方法:将原特征空间映射到高维非线性空间,再在高维空间中构建线性模型
参考: 对核函数(kernel)最通俗易懂的理解.
2)核方法与支持向量机
① 支持向量机:寻找超平面使正例和负例之间的间隔最大
可解决线性可分问题,或通过引入核函数解决线性不可分问题
支持向量机概述见: 支持向量机.
对偶问题的推导见: 拉格朗日乘子与对偶问题.
② 核方法的核心:核函数(非线性映射函数)将原始输入空间变换成高维空间
*以SVM为例,通过Φ映射到高维空间的对偶问题与映射函数本身形式无关,而与其内积Φ·Φ有关→定义核函数为映射到高维空间后的内积
核函数使用条件:对称函数对应的核矩阵满足半正定的条件
核函数的解释及选择参考:支持向量机的核函数及其选择.
3)决策树与Boosting
①决策树
可实现非线性映射,决策树的复杂程度对应拟合程度
划分选择 剪枝处理
②Boosting
集成学习思想
4)神经网络
①全连接神经网络
表达能力强大——逼近定理
深度神经网络:模型更新代价大,通常使用小批量随机梯度下降法
通常找到局部最优解:模拟退火/多次随机初始化,网络足够神时局部最优性能逼近全局最优
过拟合:多种方法Dropout等……
梯度消失:线性直连等……
②卷积神经网络
适用于处理图像数据
卷积(特征提取)、池化(特征压缩)
③循环神经网络
记忆单元的循环迭代,对时间序列进行有效建模
LSTM,GSU - 常用的优化方法 凸优化→非凸优化问题
- 机器学习理论
机器学习泛化误差及分解
优化误差(优化算法迭代T轮后输出的模型与精确最小化经验风险的模型的差别)
估计误差(最小化经验风险与最小化期望风险)
近似误差(函数集合中最优期望风险与全局最优期望风险)
误差上界 - 总结