课程大纲:
第一课时:介绍机器学习
第二、三课时:贝叶斯分析
第四、五课时:树模型,决策树、回归树、提升树、随机森林、深度森林、xgboost、剪枝算法(预习:统计学习要素、统计学习方法)
第六课时:特征工程专题,怎样在海量特征中选取最合适的特征。
第七、八课时:半监督学习
第九、十课时:凸优化
第十一课时:凸优化或流形学习
贝叶斯建模方法:
- Cameron书第33页,承接上节课关于接受短信数据的例子
- 选择适合描述样本数据的概率分布
- 上述的概率分布有哪些参数?有哪些是待定的?
- 上述参数应该选择什么先验分布?
- 贝叶斯建模的物理过程图
贝叶斯统计的MCMC斱法
- 贝叶斯统计产生大量难以直接计算的高维定积分(韦来生书第153-154页例子)
- 数值积分只适合1-2维的定积分计算,更高维度的定积分计算会随着维度增大而误差暴涨(维度灾难问题)
- 通过对后验分布进行蒙特卡罗抽样可以很容易计算出后验分布的诸多统计量(韦来生书第155页)
- MCMC是贝叶斯统计的主流计算方法
随机过程
- 浙大书第300页
- 一些实例
随机过程的马尔科夫性不马尔科夫过程
- 浙大书第319页
马尔科夫链
- 时间和状态都是离散的马尔科夫过程称为马尔科夫链
- 转移概率,转移概率矩阵,齐次马氏链,一步转移概率矩阵
浙大书P320-321页:
随机游动
浙大书:321页
反射壁
转移概率矩阵的每一行之和为1,但每一列之和不一定为1.排队模型
求多步转移概率
- C-K方程,转化为求一步转移概率矩阵的幂
- 矩阵分解为标准性
将n步转移矩阵转化为1步转移矩阵的n次方。
同时,可利用将矩阵转化为标准型的方法,来使求矩阵n次方变得简便。
遍历性
- 浙大书P328
应用
- 排队论等统计模型建模
- 语音识别
- 基因预测
- 搜索引擎鉴别网页质量——PR值
Google创始人拉里-佩奇和谢尔盖-布林
1998年,互联网的狂热达到了颠峰,网络正处于“信息爆炸”状态,唯一的问题是怎样去查找信息。此刻,两名不为人所知的年轻的计算机丏业研究生,在斯坦福大学的宿舍里经常一待就是一通宵,他们是拉里·佩奇和谢尔盖·布林。他们想出了在互联网上寻找信息的方法,并决定放弃学业,将想法商业化。 1998年9月,布林从老师大卫·切瑞顿和一位斯坦福校友(Sun的共同创始人Andy Bechtolsheim)那里顺利地拿到了第一笔投资:10万美元。依靠这10万美元,在朊友的一个车
库里,布林和佩奇开始了谷歌的征程。
投资人大卫·切瑞顿
Page Rank不马尔科夫过程
- 这是Google最核心的算法,用于给每个网页价值评分,是Google“在垃圾中找黄金”
的关键算法,这个算法成就了今天的Google
G为列形式的转移概率矩阵,每列之和为1。每一列代表一个矩阵。
指向某一个网页的链接概率越大,说明此网页的质量越好。
通过遍历性可求。但遍历性中要求P>1。以下为提出的修正方案。
- S即为上面所说的G矩阵。
- α称为阻尼因子,表示用户倾向于停留在此页面而不顺着此页面中的链接游走的概率。
- U为一个全1矩阵,用以满足遍历性中P>1的要求。
- n为节点的个数。
此修正不仅满足了遍历性的要求,也有一定的实际意义。
然后求它的特征根。
Gibbs抽样
- 《LDA数学八卦》 第25页
- [0,1]内均匀随机数产生
例如均匀分布在计算机中是非常容易实现的,可以获取系统时间的毫秒值,然后除以一定的数值,从而获得均匀分布。 - 正态分布随机数产生:Box-Muller变换
- 高维分布随机数产生比较困难,解决:Gibbs抽样
- Gibbs抽样基于MCMC(马尔科夫链蒙特卡罗方法)
在第二步中,采样q而不是p,因为q可以任意选择,所以可以选择比较简单的形式,而p的形式一般比较复杂,有时还是高维的。
抽样三阶段:initialization,burn-in,sampling
为了得到近似独立的采样,也可以在采样阶段设置每隔L次迭代采样一次
Gibbs抽样算法
在贝叶斯统计中使用MCMC
- 韦来生书P188页
对后验分布进行抽样,从而计算统计量。
PyMC使用技巧
- Cameron书第二章2.1节
- 父变量与子变量
- 编程变量:随机变量与确定变量
- 使用random( )产生随机值
- observed关键字
- 将样本数据加入模型
- pm.Model类