- 博客(43)
- 资源 (15)
- 收藏
- 关注
原创 《统计学习方法,李航》:11、条件随机场
其实条件随机场的内容没看懂,所以只写概率无向图模型(马尔科夫随机场)部分。1)概率无向图模型2)概率无向图模型的因子分解3)如何进行因子分解1)概率无向图模型概率无向图模型,又称为马尔科夫随机场,是一个表示联合概率分布的无向图。表示什么的联合概率分布呢?接下来详细介绍。先给出概率图模型定义:对于一个联合概率分布P(Y)和表示它的无向图G,只要无向
2015-01-26 15:06:14 1699
原创 《统计学习方法,李航》:10、隐马尔科夫模型
1)隐马尔科夫模型的引入 隐马尔科夫模型(hidden Markov model, HMM)是可以用于标准问题的统计学习模型,在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用。先给出隐马尔科夫模型的定义:给出严格的数学解释之前,先看个例子: 对于A、B、π的值,相信没有疑问,但是他们到底是指什么呢?下面给出严格的数学解释:
2015-01-25 14:04:18 1467
原创 《统计学习方法,李航》:9、EM算法及其推广(2)
1)EM算法的引入2)EM算法及简单解释3)EM算法在高斯混合模型中的应用4)EM算法的推广——GEM算法3)EM算法在高斯混合模型中的应用EM算法的重要应用是高斯混合模型的参数估计。先给出高斯混合模型:下面介绍利用EM算法估算高斯混合模型的参数theta:-)先明确一下目标:a)明确隐含变量,写出完全数据(直接变量+隐含
2015-01-24 20:58:13 1464
原创 《统计学习方法,李航》:8、提升方法Boosting(2)
1)Boosting思想和基本概念2)AdaBoost算法3)AdaBoost算法举例4)AdaBoost算法的解释——前向分步算法5)提升树算法6)提升树算法举例4)AdaBoost算法的解释——前向分步算法下面给出加法模型和前向分步算法的简单描述:一句话概括:前向分步算法就是分治的思想,把同时优化m=1...M的问题看
2015-01-23 13:21:23 1218
原创 《统计学习方法,李航》:8、提升方法Boosting(1)
1)Boosting思想和基本概念2)AdaBoost算法3)AdaBoost算法举例1)Boosting思想和基本概念 下面的概念前面都讲过:PAC(probably approximately correct)学习框架强可学习(strongly learnable)弱可学习(weakly learnable)提升算法中最具有代
2015-01-23 12:55:35 2578
原创 Ng在coursera上的机器学习公开课——zai总结(2)_Octave Tutorial
1)Octave Tutorial rand、randn、hist、sqrt、ones、zeros、printf、eye。。。。
2015-01-22 20:12:49 1052
原创 Ng在coursera上的机器学习公开课——zai总结(1)_梯度下降
1)关于梯度下降 学习速率α太大甚至会导致发散;(梯度会随着迭代逐渐增大以致发散) 学习速率α太小学习比较慢,但最终会收敛; 最后强调,只要α足够小,一定会收敛,且不必到后面人工减小α的值!(梯度会随着迭代逐渐减小)
2015-01-22 19:46:31 1122
原创 《统计学习方法,李航》:7、支持向量机support vector machine(2)
0)基础知识——线性可分支持向量机定义;函数间隔和集合间隔定义1)线性硬间隔支持向量机2)凸二次规划最优解求法——对偶方法3)线性硬间隔支持向量机学习算法及简单实例4)线性软间隔支持向量机5)核函数6)非线性支持向量机7)序列最小最优化算法(SMO算法)8)支持向量5)核函数 对于原始空间(输入空间)线性不可分的情况,常用的办
2015-01-21 22:27:46 1946
原创 【动态规划,带权重的区间调度】:poj3616,Milking Time
http://poj.org/problem?id=3616# include# includeusing namespace std;# define M 1003struct INTERVAL{ int s,e,w;};INTERVAL interval[M];int unOverlap[M];int cmp(INTERVAL a, INTERVAL b)
2015-01-21 21:07:29 2651
原创 《统计学习方法,李航》:7、支持向量机support vector machine(1)
0)基础知识——线性可分支持向量机定义;函数间隔和集合间隔定义1)线性硬间隔支持向量机2)凸二次规划最优解求法——对偶方法3)线性硬间隔支持向量机学习算法及简单实例4)线性软间隔支持向量机5)非线性支持向量机6)序列最小最优化算法(SMO算法)7)一些讨论0)基础知识——线性可分支持向量机定义;函数间隔和集合间隔定义
2015-01-21 20:36:51 4856
原创 《统计学习方法,李航》:6、logistic regression model
明白几点:1)logistic distribution2)binomial logistic regression model3)multi-nominal logistic regression model4)最大熵原理5)最大熵模型6)binomial logistic regression model、multi-nominal lo
2015-01-21 08:59:37 1788
原创 《统计学习方法,李航》:5、决策树
1)基本概念2)决策树的剪枝(针对ID3/C4.5生成的决策树)3)CART树之回归树生成法1)基本概念下面所有概念之前的文章有提到,不再重复。熵信息增益信息增益比基尼系数ID3算法C4.5算法CART算法2)决策树的剪枝(针对ID3/C4.5生成的决策树) 3)CART树之回归树
2015-01-19 23:17:34 2745
原创 《统计学习方法,李航》:4、朴素贝叶斯法
1)朴叶素贝斯模型2)朴素贝叶斯法的参数估计3)其他1)朴叶素贝斯模型首先明白朴叶素贝斯模型是分类模型。后验概率最大化的实质是期望风险最小化。2)朴素贝叶斯法的参数估计要计算P(Y=ck|X=x),就要计算P(Y=ck)和P(X(j)=x(j)|Y=ck):3)其他例子参考:http://blog.csdn.net/qll12
2015-01-19 22:39:47 1284
原创 《统计学习方法,李航》:3、k临近法与kd树
以后文章就不再强调三要素(模型、策略、算法),而是直接上最新鲜的部分。1)k的选择2)距离的度量3)k临近法的实现:kd树 3.1)kd树的构造 3.2)kd树的搜索1)k的选择一般初始化为比较小的值,用交叉验证判断哪一个值更好。2)距离的度量我们更常用的是欧氏距离,即p=2。3)k临近法的实现:kd树k临
2015-01-18 20:06:09 2839
原创 《统计学习方法,李航》:2、感知机模型
1)概述2)感知器模型3)感知器策略4)感知器算法1)概述 感知机学习旨在求出将训练数据集进行线性划分的分类超平面(线性不可分的训练样例不能被感知器学习)。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。2)感知器模型 f(x)= sign(w*x+b)。其中,x为输入向量,
2015-01-16 21:23:44 1492
原创 《统计学习方法,李航》:1、概述
1)统计学习2)监督学习3)统计学习三要素4)模型评估与模型选择5)判别模型与生成模型1)统计学习 统计学习分为:监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learnin
2015-01-15 22:48:18 1514
原创 微博用户影响力分析
1)类PageRank算法 PageRank算法核心在于一个假设,质量高的网页所指向的网页的质量必定也高。对于微博影响力同样有:影响力高的用户关注的用户的影响力必定也高。 首先构建微博关系网,那么类PageRank算法如下: a)赋予所有用户相同的影响力权重。 c)将每个用户的影响力权重按照其关注的人数等量分配。 d)对每个用户来说,其影响力等
2015-01-14 15:07:43 5443 2
原创 微博用户相似度分析
这里的标签,既指用户打上的真的标签,也指用户相似度。1)为了得到每个用户的兴趣,可以为用户打上标签,每个标签代表用户的一个兴趣,用户可以拥有一个或多个标签。为了得到最终的用户标签, 则可以根据他们的标签相似性、微博相似性进行协同过滤计算标签,假设:每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。具体流程如下: a)对每一个用户,根据其初始标签和相关微博生成代表这
2015-01-14 14:00:05 3045
原创 Ng机器学习系列补充:7、神经网络反向传播BP算法(Back Propagation)
机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生
2015-01-14 11:54:02 2441
原创 Ng机器学习系列补充:6、集成学习算法AdaBoost(Adaptive Boosting)
机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生
2015-01-10 15:08:32 3211
原创 Ng机器学习系列补充:5、网页排名算法PageRank和文档排名算法DocRank
机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生
2015-01-10 11:33:30 1933
原创 Ng机器学习系列补充:4、关联分析算法FP_Growth
机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生
2015-01-09 11:43:14 2513
原创 Ng机器学习系列补充:3、关联分析算法Apriori
机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生
2015-01-08 20:32:05 905
原创 Ng机器学习系列补充:2、分类和回归树算法CART
机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生
2015-01-08 16:01:25 1687
原创 Ng机器学习系列补充:1、决策树算法ID3和C4.5
机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生
2015-01-08 15:32:27 2817
原创 【动态规划DP,二维动归】poj1080,Human Gene Functions
http://poj.org/problem?id=1080注意,三种情况:1)ai和bi匹配(不管a[i]和b[j]是否一样,因为不匹配也可以,只是代价为负而已!!!看代码注释掉的部分就知道什么意思了),2)ai和空格匹配,再匹配ai-1和bj,3)bj和空格匹配,再匹配ai和bj-1。# includeusing namespace std;# d
2015-01-07 13:41:07 852
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——15、无监督学习:Reinforcement Learning and Control
在之前的讨论中,我们总是给定一个样本x,然后给出或者不给出label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向;比如,象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式方法,但在局势复杂时,仍然
2015-01-06 19:29:12 2033
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——14、无监督学习:Independent Component Analysis(ICA)
1)问题描述 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里共放置了n个声音接收器(Microphone)用来记录声音。宴会过后,我们从n个麦克风中得到
2015-01-06 19:20:47 1804
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——13、无监督学习:Principal Component Analysis (PCA)
1)问题起源 真实的训练数据总是存在各种各样的问题: 1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。 2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第
2015-01-06 15:23:32 2548
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——12、无监督学习:Factor Analysis
1)问题描述2)协方差矩阵的限制3)多元高斯分布的边缘分布和条件分布4)因子分析的例子5)因子分析模型6)因子分析的EM估计‘7)简单总结1)问题描述 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。 然而当训练样例个数m太小,甚至m变成奇异阵(),也就是说不存在,根
2015-01-06 14:31:07 2638 1
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——11、无监督学习:the derivation of EM Algorithm
1)Convex Functions and Jensen’s inequality2)Derivation of the EM-algorithm1)Convex Functions and Jensen’s inequalityif f is a convex function, X is r.v, then: 。特别地,当且仅当,也就是说X是
2015-01-06 12:58:20 1579
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——10、无监督学习:Mixture of Gaussians and the EM Algorithm
1
2015-01-05 13:15:28 1916
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——9、无监督学习:K-means Clustering Algorithm
1)K-means聚类算法(K-means Clustering Algorithm)描述2)2-means聚类算法(K-means Clustering Algorithm)效果展示图片3)k-means聚类算法(K-means Clustering Algorithm)收敛性简述4)支持k-means聚类算法(K-means Clustering Algorithm)有效性的...
2015-01-05 10:52:58 3045 3
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——8、监督学习:Learning Theory
1)交叉验证(Cross validation) 1.1)hold-out cross validation或者称为简单交叉验证 1.2)k-fold cross validation(k-折叠交叉验证) 1.3)leave-one-out cross validation2)特征选择(Feature selection) 2.1)封装特征选
2015-01-04 19:53:04 2068 1
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——7、监督学习:Support Vector Machine,立
9)规则化和不可分割情况(Regularization and the non-separable case) 之前的讨论都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。这时候我们应该允许一些点游离并在模型中违背限制条件(函数间隔大于1)。对应下面两幅图,我们更希望得到第一幅而不是第二
2015-01-04 17:27:53 1121
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——6、监督学习:Support Vector Machine,破
6)拉格朗日对偶(Lagrange duality)先抛开上一节的二次规划(最小值)问题。对于存在等式约束的极值问题求解,通过引入拉格朗日算子构造拉格朗日公式就可以完美解决。对于存在不等式约束的极值问题求解,如下: 我们定义更一般化的拉格朗日公式:因为我们求解的是最小值,而这里的已经不严格等于0,而是小于等于0,我们虽然可以将调整成很大的正值以使函数的结果
2015-01-04 11:51:25 1460
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——5、监督学习:Support Vector Machine,引
1)简单说明2)再说logistic回归3)支持向量机的假设表示4)函数间隔(functional margin)和几何间隔(geometric margin) 4.1)函数间隔 4.2)几何间隔5)最优间隔分类器(optimal margin classifier)6)简单总结1)简单说明 支持向量
2015-01-03 21:40:08 1631 2
原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——4、监督学习:Naive Bayes
0)GDA要求输入特征x是连续型随机变量;朴素贝叶斯分类方法适用于输入特征x是离散值的情况,主要目的是确定后验概率p(x|y)。1)朴素贝叶斯模型(Naive Bayes Model) 1.1)朴素贝叶斯假设 1.2)朴素贝叶斯模型的构建——以邮件分类为例 1.3)应用朴素贝叶斯模型分类新邮件 1.4)朴素贝叶斯模型的一些问题2)拉普拉斯平
2015-01-02 20:16:19 3664
dblp测试数据集
2016-03-26
entity linking源码
2016-01-17
机器学习数据集,20news-bydate.rar
2015-09-06
java读xml文件jar包
2015-08-22
javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar
2015-08-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人