机器学习中的数学修炼——为你打开一道通往机器学习世界的数学之门
数学是机器学习和数据科学的基础,任何期望涉足相关领域并切实领悟具体技术与方法的人都无法绕过数学这一关。本书系统地整理并介绍了机器学习中所涉及的必备数学基础,这些都是笔者从浩如烟海的数学知识中精心萃取的,在学习和研究机器学习技术时所必须的内容。具体包括概率论与数理统计、微积分(主要是与最优化内容相关的部分,例如泰勒展开与海塞矩阵等)、凸优化及拉格朗日乘数法、数值计算(例如牛顿法等)、泛函分析与变分法基础(例如核方法赖以建立的希尔伯特空间理论、变分推断赖以建立的基础——变分法及“欧拉-拉格朗日方程”),数据降维与流形学习中常用的矩阵分解和特征提取方法(例如PCA与SVD等)、以及蒙特卡洛采样(拒绝与自适应拒绝采样、重要性采样、吉布斯采样和马尔科夫链蒙特卡洛)等内容。
此外,为了帮助读者强化所学,本书还从上述数学基础出发介绍了回归、分类(感知机、逻辑回归、朴素贝叶斯、决策树、支持向量机、人工神经网络等)、聚类、降维与流形学习、集成学习,以及概率图模型等机器学习中的重要话题。
- 步步为营,砥砺机器学习中的数学基础
- 循序渐进,知其然更要注重知其所以然
- 全面详实,抽象理论与应用实践相结合
- 拨云开雾,点破公式背后的奥秘与玄机
如果你对博主已经出版的图书感兴趣,可以在QQ群(155911675)中联系店小二以优惠价购买全新正版的博主著作。需要入群购书的朋友,入群问题答案请直接填写“购书”。
- 购书群(QQ群 155911675)
或者,你也可以从任意电商网站上购买:
勘误表
P124:“下面的矩阵表面人口迁移…”
应该改为:“下面的矩阵表明人口迁移…”
P45:当且仅当
x
=
θ
x=\theta
x=θ时,
∣
∣
x
∣
∣
=
0
||x||=0
∣∣x∣∣=0
应该改为 当且仅当
x
=
0
x=0
x=0时,
∣
∣
x
∣
∣
=
0
||x||=0
∣∣x∣∣=0
P17:第一个概率密度函数(
χ
2
\chi^2
χ2分布)中的
x
>
0
x>0
x>0
应该改为
x
≥
0
x\geq0
x≥0
P22: 也就是说,一个随机变量的方差为 0 的充要条件是这个随机变量的概率为 1。
应该改为:也就是说,一个随机变量的方差为 0 的充要条件是这个随机变量的概率为 1 地等于常数。
P4:
应该改为:
6. P7
最后一句话“数学期望、方程、协方差都是矩”
应该改为:“数学期望、方差、协方差都是矩”
-
P131-132
应该改为(注意改动的地方由红线标出):
P303:第一个公式应改为
9.
P40:
改为:
下面给出一个更为严谨的证明。假设
f
f
f是一个可微的凸函数,对于任意的
p
1
p_1
p1和
p
2
p_2
p2,有
f
(
p
1
)
≥
f
(
p
2
)
+
(
p
1
−
p
2
)
f
′
(
p
2
)
f(p_1)\geq f(p_2)+(p_1-p_2)f'(p_2)
f(p1)≥f(p2)+(p1−p2)f′(p2)
令
p
1
=
X
p_1=X
p1=X,
p
2
=
E
[
X
]
p_2=E[X]
p2=E[X],重写上式为
------然后把后续 ≤ \leq ≤的 ≥ \geq ≥变成即可。------
文末另附本书目录,便于读者进一步了解本书的内容。
目录
第1章 概率论基础
-
1.1 概率论的基本概念
-
1.2 随机变量数字特征
1.2.1 期望
1.2.2 方差
1.2.3 矩与矩母函数
1.2.4 协方差与协方差矩阵 -
1.3 基本概率分布模型
1.3.1 离散概率分布
1.3.2 连续概率分布
1.3.3 在R中使用内嵌分布 -
1.4 概率论中的重要定理
1.4.1 大数定理
1.4.2 中央极限定理 -
1.5 经验分布函数
第2章 最优化基础
-
2.1 泰勒公式
-
2.2 海塞矩阵
-
2.3 凸函数与詹森不等式
2.3.1 凸函数的概念
2.3.2 詹森不等式及其证明
2.3.3 詹森不等式的应用 -
2.4 泛函与抽象空间
2.4.1 线性空间
2.4.2 距离空间
2.4.3 赋范空间
2.4.4 巴拿赫空间
2.4.5 内积空间
2.4.6 希尔伯特空间 -
2.5 从泛函到变分法
2.5.1 理解泛函的概念
2.5.2 关于的变分概念
2.5.3 变分法的基本方程
2.5.4 哈密尔顿原理
2.5.5 等式约束下的变分
第3章 统计推断
-
3.1 随机采样
-
3.2 参数估计
3.2.1 参数估计的基本原理
3.2.2 单总体参数区间估计
3.2.3 双总体均值差的估计
3.2.4 双总体比例差的估计 -
3.3 假设检验
3.3.1 基本概念
3.3.2 两类错误
3.3.3 均值检验 -
3.4 极大似然估计
3.4.1 极大似然法的基本原理
3.4.2 求极大似然估计的方法
3.4.3 极大似然估计应用举例
第4章 采样方法
-
4.1 蒙特卡洛法求定积分
4.1.1 无意识统计学家法则
4.1.2 投点法
4.1.3 期望法 -
4.2 蒙特卡洛采样
4.2.1 逆采样
4.2.2 博克斯-穆勒变换
4.2.3 拒绝采样与自适应拒绝采样 -
4.3 矩阵的极限与马尔科夫链
-
4.4 查普曼-柯尔莫哥洛夫等式
-
4.5 马尔科夫链蒙特卡洛
4.5.1 重要性采样
4.5.2 马尔科夫链蒙特卡洛的基本概念
4.5.3 梅特罗波利斯-黑斯廷斯算法
4.5.4 吉布斯采样
第5章 一元线性回归
-
5.1 回归分析的性质
-
5.2 回归的基本概念
5.2.1 总体的回归函数
5.2.2 随机干扰的意义
5.2.3 样本的回归函数 -
5.3 回归模型的估计
5.3.1 普通最小二乘法原理
5.3.2 一元线性回归的应用
5.3.3 经典模型的基本假定
5.3.4 总体方差的无偏估计
5.3.5 估计参数的概率分布 -
5.4 正态条件下的模型检验
5.4.1 拟合优度的检验
5.4.2 整体性假定检验
5.4.3 单个参数的检验 -
5.5 一元线性回归模型预测
5.5.1 点预测
5.5.2 区间预测
第6章 多元线性回归
-
6.1 多元线性回归模型
-
6.2 多元回归模型估计
6.2.1 最小二乘估计量
6.2.2 多元回归的实例
6.2.3 总体参数估计量 -
6.3 从线性代数角度理解最小二乘
6.3.1 最小二乘问题的通解
6.3.2 最小二乘问题的计算 -
6.4 多元回归模型检验
6.4.1 线性回归的显著性
6.4.2 回归系数的显著性 -
6.5 多元线性回归模型预测
-
6.6 格兰杰因果关系检验
第7章 线性回归进阶
-
7.1 更多回归模型函数形式
7.1.1 双对数模型以及生产函数
7.1.2 倒数模型与菲利普斯曲线
7.1.3 多项式回归模型及其分析 -
7.2 回归模型的评估与选择
7.2.1 嵌套模型选择
7.2.2 赤池信息准则
7.2.3 逐步回归方法 -
7.3 现代回归方法的新进展
7.3.1 多重共线性
7.3.2 岭回归
7.3.3 从岭回归到LASSO
7.3.4 正则化
第8章 逻辑回归与最大熵模型
- 8.1 逻辑回归
- 8.2 牛顿法解Logistic回归
- 8.3 多元逻辑回归
- 8.4 最大熵模型
8.4.1 最大熵原理
8.4.2 约束条件
8.4.3 模型推导
8.4.4 极大似然估计
第9章 聚类分析
-
9.1 聚类的概念
-
9.2 K均值算法
9.2.1 距离度量
9.2.2 算法描述
9.2.3 应用实例 -
9.3 最大期望算法
9.3.1 算法原理
9.3.2 收敛探讨 -
9.4 高斯混合模型
9.4.1 模型推导
9.4.2 应用实例 -
9.5 密度聚类与DBSCAN算法
第10章 支持向量机
-
10.1 线性可分的支持向量机
10.1.1 函数距离与几何距离
10.1.2 最大间隔分类器
10.1.3 拉格朗日乘数法
10.1.4 对偶问题的求解 -
10.2 松弛因子与软间隔模型
-
10.3 非线性支持向量机方法
10.3.1 从更高维度上分类
10.3.2 非线性核函数方法
10.3.3 机器学习中的核方法
10.3.4 默瑟定理 -
10.4 对数据进行分类的实践
10.4.1 基本建模函数
10.4.2 分析建模结果
第11章 贝叶斯推断与概率图模型
-
11.1 贝叶斯公式与边缘分布
-
11.2 贝叶斯推断中的重要概念
11.2.1 先验概率与后验概率
11.2.2 共轭分布 -
11.3 朴素贝叶斯分类器
-
11.4 贝叶斯网络
11.4.1 基本结构单元
11.4.2 模型推理 -
11.5 贝叶斯推断的应用举例
-
11.6 隐马尔科夫模型
11.6.1 随机过程
11.6.2 从时间角度考虑不确定性
11.6.3 前向(Forward)算法
11.6.4 维特比(Viterbi)算法
第12章 降维与流形学习
-
12.1 主成分分析(PCA)
-
12.2 奇异值分解(SVD)
12.2.1 一个基本的认识
12.2.2 为什么可以做SVD
12.2.3 SVD与PCA的关系
12.2.4 应用举例与矩阵的伪逆 -
12.3 多维标度法(MDS)
第13章 决策树
-
13.1 决策树基础
13.1.1 Hunt算法
13.1.2 基尼测度与划分
13.1.3 信息熵与信息增益
13.1.4 分类误差 -
13.2 决策树进阶
13.2.1 ID3算法
13.2.2 C4.5算法 -
13.3 分类回归树
-
13.4 决策树剪枝
13.4.1 没有免费午餐原理
13.4.2 剪枝方法 -
13.5 分类器的评估
第14章 人工神经网络
-
14.1 从感知机开始
14.1.1 感知机模型
14.1.2 感知机学习
14.1.3 多层感知机 -
14.2 基本神经网络
14.2.1 神经网络结构
14.2.2 符号标记说明
14.2.3 后向传播算法 -
14.3 神经网络实践
14.3.1 核心函数介绍
14.3.2 应用分析实践
第15章 集成学习
- 15.1 集成学习的理论基础
- 15.2 Bootstrap方法
- 15.3 Bagging与随机森林
- 15.4 Boosting与AdaBoost
附录A:信息论基础
附录B:数学传奇
参考文献
- 本书中涉及的数据集下载链接 (提取码:c6ug)*注:属于软件内置的数据集请遵照书中描述通过安装相应package或library的方式来获取。