2015年01月_mmc2015

原创《统计学习方法，李航》：12、统计学习方法总结

除了最后的两个标注问题看的不太明白，其他的都还好。收拾东西，明天回家！

2015-01-26 15:51:57 682

原创《统计学习方法，李航》：11、条件随机场

其实条件随机场的内容没看懂，所以只写概率无向图模型（马尔科夫随机场）部分。1）概率无向图模型2）概率无向图模型的因子分解3）如何进行因子分解1）概率无向图模型概率无向图模型，又称为马尔科夫随机场，是一个表示联合概率分布的无向图。表示什么的联合概率分布呢？接下来详细介绍。先给出概率图模型定义：对于一个联合概率分布P(Y)和表示它的无向图G，只要无向

2015-01-26 15:06:14 1699

原创《统计学习方法，李航》：10、隐马尔科夫模型

1）隐马尔科夫模型的引入隐马尔科夫模型（hidden Markov model, HMM）是可以用于标准问题的统计学习模型，在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用。先给出隐马尔科夫模型的定义：给出严格的数学解释之前，先看个例子：对于A、B、π的值，相信没有疑问，但是他们到底是指什么呢？下面给出严格的数学解释：

2015-01-25 14:04:18 1467

原创《统计学习方法，李航》：9、EM算法及其推广（2）

1）EM算法的引入2）EM算法及简单解释3）EM算法在高斯混合模型中的应用4）EM算法的推广——GEM算法3）EM算法在高斯混合模型中的应用EM算法的重要应用是高斯混合模型的参数估计。先给出高斯混合模型：下面介绍利用EM算法估算高斯混合模型的参数theta：-）先明确一下目标：a）明确隐含变量，写出完全数据（直接变量+隐含

2015-01-24 20:58:13 1464

原创《统计学习方法，李航》：9、EM算法及其推广（1）

1）EM算法的引入EM算法思想：EM算法引例：

2015-01-24 19:55:17 2931

原创《统计学习方法，李航》：8、提升方法Boosting（2）

1）Boosting思想和基本概念2）AdaBoost算法3）AdaBoost算法举例4）AdaBoost算法的解释——前向分步算法5）提升树算法6）提升树算法举例4）AdaBoost算法的解释——前向分步算法下面给出加法模型和前向分步算法的简单描述：一句话概括：前向分步算法就是分治的思想，把同时优化m=1...M的问题看

2015-01-23 13:21:23 1218

原创《统计学习方法，李航》：8、提升方法Boosting（1）

1）Boosting思想和基本概念2）AdaBoost算法3）AdaBoost算法举例1）Boosting思想和基本概念下面的概念前面都讲过：PAC（probably approximately correct）学习框架强可学习（strongly learnable）弱可学习（weakly learnable）提升算法中最具有代

2015-01-23 12:55:35 2578

原创 Ng在coursera上的机器学习公开课——zai总结（2）_Octave Tutorial

1）Octave Tutorial rand、randn、hist、sqrt、ones、zeros、printf、eye。。。。

2015-01-22 20:12:49 1052

原创 Ng在coursera上的机器学习公开课——zai总结（1）_梯度下降

1）关于梯度下降学习速率α太大甚至会导致发散；（梯度会随着迭代逐渐增大以致发散）学习速率α太小学习比较慢，但最终会收敛；最后强调，只要α足够小，一定会收敛，且不必到后面人工减小α的值！（梯度会随着迭代逐渐减小）

2015-01-22 19:46:31 1122

原创《统计学习方法，李航》：7、支持向量机support vector machine（2）

0）基础知识——线性可分支持向量机定义；函数间隔和集合间隔定义1）线性硬间隔支持向量机2）凸二次规划最优解求法——对偶方法3）线性硬间隔支持向量机学习算法及简单实例4）线性软间隔支持向量机5）核函数6）非线性支持向量机7）序列最小最优化算法（SMO算法）8）支持向量5）核函数对于原始空间（输入空间）线性不可分的情况，常用的办

2015-01-21 22:27:46 1946

原创【动态规划，带权重的区间调度】：poj3616，Milking Time

http://poj.org/problem?id=3616# include# includeusing namespace std;# define M 1003struct INTERVAL{ int s,e,w;};INTERVAL interval[M];int unOverlap[M];int cmp(INTERVAL a, INTERVAL b)

2015-01-21 21:07:29 2651

原创《统计学习方法，李航》：7、支持向量机support vector machine（1）

0）基础知识——线性可分支持向量机定义；函数间隔和集合间隔定义1）线性硬间隔支持向量机2）凸二次规划最优解求法——对偶方法3）线性硬间隔支持向量机学习算法及简单实例4）线性软间隔支持向量机5）非线性支持向量机6）序列最小最优化算法（SMO算法）7）一些讨论0）基础知识——线性可分支持向量机定义；函数间隔和集合间隔定义

2015-01-21 20:36:51 4856

原创《统计学习方法，李航》：6、logistic regression model

明白几点：1）logistic distribution2）binomial logistic regression model3）multi-nominal logistic regression model4）最大熵原理5）最大熵模型6）binomial logistic regression model、multi-nominal lo

2015-01-21 08:59:37 1788

原创《统计学习方法，李航》：5、决策树

1）基本概念2）决策树的剪枝（针对ID3/C4.5生成的决策树）3）CART树之回归树生成法1）基本概念下面所有概念之前的文章有提到，不再重复。熵信息增益信息增益比基尼系数ID3算法C4.5算法CART算法2）决策树的剪枝（针对ID3/C4.5生成的决策树） 3）CART树之回归树

2015-01-19 23:17:34 2745

原创《统计学习方法，李航》：4、朴素贝叶斯法

1）朴叶素贝斯模型2）朴素贝叶斯法的参数估计3）其他1）朴叶素贝斯模型首先明白朴叶素贝斯模型是分类模型。后验概率最大化的实质是期望风险最小化。2）朴素贝叶斯法的参数估计要计算P(Y=ck|X=x)，就要计算P(Y=ck)和P(X(j)=x(j)|Y=ck)：3）其他例子参考：http://blog.csdn.net/qll12

2015-01-19 22:39:47 1284

原创《统计学习方法，李航》：3、k临近法与kd树

以后文章就不再强调三要素（模型、策略、算法），而是直接上最新鲜的部分。1）k的选择2）距离的度量3）k临近法的实现：kd树 3.1）kd树的构造 3.2）kd树的搜索1）k的选择一般初始化为比较小的值，用交叉验证判断哪一个值更好。2）距离的度量我们更常用的是欧氏距离，即p=2。3）k临近法的实现：kd树k临

2015-01-18 20:06:09 2839

原创《统计学习方法，李航》：2、感知机模型

1）概述2）感知器模型3）感知器策略4）感知器算法1）概述感知机学习旨在求出将训练数据集进行线性划分的分类超平面（线性不可分的训练样例不能被感知器学习）。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。2）感知器模型 f(x)= sign(w*x+b)。其中，x为输入向量，

2015-01-16 21:23:44 1492

原创《统计学习方法，李航》：1、概述

1）统计学习2）监督学习3）统计学习三要素4）模型评估与模型选择5）判别模型与生成模型1）统计学习统计学习分为：监督学习（supervised learning）、无监督学习（unsupervised learning）、半监督学习（semi-supervised learning）、强化学习（reinforcement learnin

2015-01-15 22:48:18 1514

原创微博用户影响力分析

1）类PageRank算法 PageRank算法核心在于一个假设，质量高的网页所指向的网页的质量必定也高。对于微博影响力同样有：影响力高的用户关注的用户的影响力必定也高。首先构建微博关系网，那么类PageRank算法如下： a）赋予所有用户相同的影响力权重。 c）将每个用户的影响力权重按照其关注的人数等量分配。 d）对每个用户来说，其影响力等

2015-01-14 15:07:43 5443 2

原创微博用户相似度分析

这里的标签，既指用户打上的真的标签，也指用户相似度。1）为了得到每个用户的兴趣，可以为用户打上标签，每个标签代表用户的一个兴趣，用户可以拥有一个或多个标签。为了得到最终的用户标签，则可以根据他们的标签相似性、微博相似性进行协同过滤计算标签，假设：每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。具体流程如下： a）对每一个用户，根据其初始标签和相关微博生成代表这

2015-01-14 14:00:05 3045