自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (15)
  • 收藏
  • 关注

原创 《统计学习方法,李航》:12、统计学习方法总结

除了最后的两个标注问题看的不太明白,其他的都还好。收拾东西,明天回家!

2015-01-26 15:51:57 682

原创 《统计学习方法,李航》:11、条件随机场

其实条件随机场的内容没看懂,所以只写概率无向图模型(马尔科夫随机场)部分。1)概率无向图模型2)概率无向图模型的因子分解3)如何进行因子分解1)概率无向图模型概率无向图模型,又称为马尔科夫随机场,是一个表示联合概率分布的无向图。表示什么的联合概率分布呢?接下来详细介绍。先给出概率图模型定义:对于一个联合概率分布P(Y)和表示它的无向图G,只要无向

2015-01-26 15:06:14 1699

原创 《统计学习方法,李航》:10、隐马尔科夫模型

1)隐马尔科夫模型的引入    隐马尔科夫模型(hidden Markov model, HMM)是可以用于标准问题的统计学习模型,在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用。先给出隐马尔科夫模型的定义:给出严格的数学解释之前,先看个例子:       对于A、B、π的值,相信没有疑问,但是他们到底是指什么呢?下面给出严格的数学解释:

2015-01-25 14:04:18 1467

原创 《统计学习方法,李航》:9、EM算法及其推广(2)

1)EM算法的引入2)EM算法及简单解释3)EM算法在高斯混合模型中的应用4)EM算法的推广——GEM算法3)EM算法在高斯混合模型中的应用EM算法的重要应用是高斯混合模型的参数估计。先给出高斯混合模型:下面介绍利用EM算法估算高斯混合模型的参数theta:-)先明确一下目标:a)明确隐含变量,写出完全数据(直接变量+隐含

2015-01-24 20:58:13 1464

原创 《统计学习方法,李航》:9、EM算法及其推广(1)

1)EM算法的引入EM算法思想:EM算法引例:

2015-01-24 19:55:17 2931

原创 《统计学习方法,李航》:8、提升方法Boosting(2)

1)Boosting思想和基本概念2)AdaBoost算法3)AdaBoost算法举例4)AdaBoost算法的解释——前向分步算法5)提升树算法6)提升树算法举例4)AdaBoost算法的解释——前向分步算法下面给出加法模型和前向分步算法的简单描述:一句话概括:前向分步算法就是分治的思想,把同时优化m=1...M的问题看

2015-01-23 13:21:23 1218

原创 《统计学习方法,李航》:8、提升方法Boosting(1)

1)Boosting思想和基本概念2)AdaBoost算法3)AdaBoost算法举例1)Boosting思想和基本概念 下面的概念前面都讲过:PAC(probably approximately correct)学习框架强可学习(strongly learnable)弱可学习(weakly learnable)提升算法中最具有代

2015-01-23 12:55:35 2578

原创 Ng在coursera上的机器学习公开课——zai总结(2)_Octave Tutorial

1)Octave Tutorial    rand、randn、hist、sqrt、ones、zeros、printf、eye。。。。

2015-01-22 20:12:49 1052

原创 Ng在coursera上的机器学习公开课——zai总结(1)_梯度下降

1)关于梯度下降    学习速率α太大甚至会导致发散;(梯度会随着迭代逐渐增大以致发散)    学习速率α太小学习比较慢,但最终会收敛;    最后强调,只要α足够小,一定会收敛,且不必到后面人工减小α的值!(梯度会随着迭代逐渐减小)

2015-01-22 19:46:31 1122

原创 《统计学习方法,李航》:7、支持向量机support vector machine(2)

0)基础知识——线性可分支持向量机定义;函数间隔和集合间隔定义1)线性硬间隔支持向量机2)凸二次规划最优解求法——对偶方法3)线性硬间隔支持向量机学习算法及简单实例4)线性软间隔支持向量机5)核函数6)非线性支持向量机7)序列最小最优化算法(SMO算法)8)支持向量5)核函数   对于原始空间(输入空间)线性不可分的情况,常用的办

2015-01-21 22:27:46 1946

原创 【动态规划,带权重的区间调度】:poj3616,Milking Time

http://poj.org/problem?id=3616# include# includeusing namespace std;# define M 1003struct INTERVAL{ int s,e,w;};INTERVAL interval[M];int unOverlap[M];int cmp(INTERVAL a, INTERVAL b)

2015-01-21 21:07:29 2651

原创 《统计学习方法,李航》:7、支持向量机support vector machine(1)

0)基础知识——线性可分支持向量机定义;函数间隔和集合间隔定义1)线性硬间隔支持向量机2)凸二次规划最优解求法——对偶方法3)线性硬间隔支持向量机学习算法及简单实例4)线性软间隔支持向量机5)非线性支持向量机6)序列最小最优化算法(SMO算法)7)一些讨论0)基础知识——线性可分支持向量机定义;函数间隔和集合间隔定义

2015-01-21 20:36:51 4856

原创 《统计学习方法,李航》:6、logistic regression model

明白几点:1)logistic distribution2)binomial logistic regression model3)multi-nominal logistic regression model4)最大熵原理5)最大熵模型6)binomial logistic regression model、multi-nominal lo

2015-01-21 08:59:37 1788

原创 《统计学习方法,李航》:5、决策树

1)基本概念2)决策树的剪枝(针对ID3/C4.5生成的决策树)3)CART树之回归树生成法1)基本概念下面所有概念之前的文章有提到,不再重复。熵信息增益信息增益比基尼系数ID3算法C4.5算法CART算法2)决策树的剪枝(针对ID3/C4.5生成的决策树)          3)CART树之回归树

2015-01-19 23:17:34 2745

原创 《统计学习方法,李航》:4、朴素贝叶斯法

1)朴叶素贝斯模型2)朴素贝叶斯法的参数估计3)其他1)朴叶素贝斯模型首先明白朴叶素贝斯模型是分类模型。后验概率最大化的实质是期望风险最小化。2)朴素贝叶斯法的参数估计要计算P(Y=ck|X=x),就要计算P(Y=ck)和P(X(j)=x(j)|Y=ck):3)其他例子参考:http://blog.csdn.net/qll12

2015-01-19 22:39:47 1284

原创 《统计学习方法,李航》:3、k临近法与kd树

以后文章就不再强调三要素(模型、策略、算法),而是直接上最新鲜的部分。1)k的选择2)距离的度量3)k临近法的实现:kd树    3.1)kd树的构造    3.2)kd树的搜索1)k的选择一般初始化为比较小的值,用交叉验证判断哪一个值更好。2)距离的度量我们更常用的是欧氏距离,即p=2。3)k临近法的实现:kd树k临

2015-01-18 20:06:09 2839

原创 《统计学习方法,李航》:2、感知机模型

1)概述2)感知器模型3)感知器策略4)感知器算法1)概述    感知机学习旨在求出将训练数据集进行线性划分的分类超平面(线性不可分的训练样例不能被感知器学习)。感知机模型是神经网络和支持向量机的基础。下面分别从感知机学习的模型、策略和算法三个方面来介绍。2)感知器模型     f(x)= sign(w*x+b)。其中,x为输入向量,

2015-01-16 21:23:44 1492

原创 《统计学习方法,李航》:1、概述

1)统计学习2)监督学习3)统计学习三要素4)模型评估与模型选择5)判别模型与生成模型1)统计学习     统计学习分为:监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learnin

2015-01-15 22:48:18 1514

原创 微博用户影响力分析

1)类PageRank算法    PageRank算法核心在于一个假设,质量高的网页所指向的网页的质量必定也高。对于微博影响力同样有:影响力高的用户关注的用户的影响力必定也高。    首先构建微博关系网,那么类PageRank算法如下:    a)赋予所有用户相同的影响力权重。    c)将每个用户的影响力权重按照其关注的人数等量分配。    d)对每个用户来说,其影响力等

2015-01-14 15:07:43 5443 2

原创 微博用户相似度分析

这里的标签,既指用户打上的真的标签,也指用户相似度。1)为了得到每个用户的兴趣,可以为用户打上标签,每个标签代表用户的一个兴趣,用户可以拥有一个或多个标签。为了得到最终的用户标签, 则可以根据他们的标签相似性、微博相似性进行协同过滤计算标签,假设:每个用户的好友(或粉丝)中与该用户具有相同兴趣的人占多数。具体流程如下:    a)对每一个用户,根据其初始标签和相关微博生成代表这

2015-01-14 14:00:05 3045

原创 Ng机器学习系列补充:7、神经网络反向传播BP算法(Back Propagation)

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生

2015-01-14 11:54:02 2441

原创 Ng机器学习系列补充:6、集成学习算法AdaBoost(Adaptive Boosting)

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生

2015-01-10 15:08:32 3211

原创 Ng机器学习系列补充:5、网页排名算法PageRank和文档排名算法DocRank

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生

2015-01-10 11:33:30 1933

原创 Ng机器学习系列补充:4、关联分析算法FP_Growth

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生

2015-01-09 11:43:14 2513

原创 Ng机器学习系列补充:3、关联分析算法Apriori

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生

2015-01-08 20:32:05 905

原创 Ng机器学习系列补充:2、分类和回归树算法CART

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生

2015-01-08 16:01:25 1687

原创 Ng机器学习系列补充:1、决策树算法ID3和C4.5

机器学习补充系列国际权威的学术组织the IEEE International Conference on Data Mining (ICDM,国际数据哇局会议) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART,它们在数据挖掘领域都产生

2015-01-08 15:32:27 2817

原创 【动态规划DP,二维动归】poj1080,Human Gene Functions

http://poj.org/problem?id=1080注意,三种情况:1)ai和bi匹配(不管a[i]和b[j]是否一样,因为不匹配也可以,只是代价为负而已!!!看代码注释掉的部分就知道什么意思了),2)ai和空格匹配,再匹配ai-1和bj,3)bj和空格匹配,再匹配ai和bj-1。# includeusing namespace std;# d

2015-01-07 13:41:07 852

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——15、无监督学习:Reinforcement Learning and Control

在之前的讨论中,我们总是给定一个样本x,然后给出或者不给出label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向;比如,象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式方法,但在局势复杂时,仍然

2015-01-06 19:29:12 2033

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——14、无监督学习:Independent Component Analysis(ICA)

1)问题描述    1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢?    2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里共放置了n个声音接收器(Microphone)用来记录声音。宴会过后,我们从n个麦克风中得到

2015-01-06 19:20:47 1804

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——13、无监督学习:Principal Component Analysis (PCA)

1)问题起源   真实的训练数据总是存在各种各样的问题:    1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。   2、 拿到一个数学系的本科生期末考试成绩单,里面有三列,一列是对数学的兴趣程度,一列是复习时间,还有一列是考试成绩。我们知道要学好数学,需要有浓厚的兴趣,所以第二项与第一项强相关,第

2015-01-06 15:23:32 2548

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——12、无监督学习:Factor Analysis

1)问题描述2)协方差矩阵的限制3)多元高斯分布的边缘分布和条件分布4)因子分析的例子5)因子分析模型6)因子分析的EM估计‘7)简单总结1)问题描述   之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。   然而当训练样例个数m太小,甚至m变成奇异阵(),也就是说不存在,根

2015-01-06 14:31:07 2638 1

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——11、无监督学习:the derivation of EM Algorithm

1)Convex Functions and Jensen’s inequality2)Derivation of the EM-algorithm1)Convex Functions and Jensen’s inequalityif f is a convex function, X is r.v, then:      。特别地,当且仅当,也就是说X是

2015-01-06 12:58:20 1579

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——10、无监督学习:Mixture of Gaussians and the EM Algorithm

1

2015-01-05 13:15:28 1916

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——9、无监督学习:K-means Clustering Algorithm

1)K-means聚类算法(K-means Clustering Algorithm)描述2)2-means聚类算法(K-means Clustering Algorithm)效果展示图片3)k-means聚类算法(K-means Clustering Algorithm)收敛性简述4)支持k-means聚类算法(K-means Clustering Algorithm)有效性的...

2015-01-05 10:52:58 3045 3

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——8、监督学习:Learning Theory

1)交叉验证(Cross validation)    1.1)hold-out cross validation或者称为简单交叉验证    1.2)k-fold cross validation(k-折叠交叉验证)    1.3)leave-one-out cross validation2)特征选择(Feature selection)    2.1)封装特征选

2015-01-04 19:53:04 2068 1

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——7、监督学习:Support Vector Machine,立

9)规则化和不可分割情况(Regularization and the non-separable case)    之前的讨论都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。这时候我们应该允许一些点游离并在模型中违背限制条件(函数间隔大于1)。对应下面两幅图,我们更希望得到第一幅而不是第二

2015-01-04 17:27:53 1121

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——6、监督学习:Support Vector Machine,破

6)拉格朗日对偶(Lagrange duality)先抛开上一节的二次规划(最小值)问题。对于存在等式约束的极值问题求解,通过引入拉格朗日算子构造拉格朗日公式就可以完美解决。对于存在不等式约束的极值问题求解,如下:        我们定义更一般化的拉格朗日公式:因为我们求解的是最小值,而这里的已经不严格等于0,而是小于等于0,我们虽然可以将调整成很大的正值以使函数的结果

2015-01-04 11:51:25 1460

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——5、监督学习:Support Vector Machine,引

1)简单说明2)再说logistic回归3)支持向量机的假设表示4)函数间隔(functional margin)和几何间隔(geometric margin)    4.1)函数间隔    4.2)几何间隔5)最优间隔分类器(optimal margin classifier)6)简单总结1)简单说明    支持向量

2015-01-03 21:40:08 1631 2

原创 斯坦福大学公开课 :机器学习课程(Andrew Ng)——4、监督学习:Naive Bayes

0)GDA要求输入特征x是连续型随机变量;朴素贝叶斯分类方法适用于输入特征x是离散值的情况,主要目的是确定后验概率p(x|y)。1)朴素贝叶斯模型(Naive Bayes Model)    1.1)朴素贝叶斯假设   1.2)朴素贝叶斯模型的构建——以邮件分类为例    1.3)应用朴素贝叶斯模型分类新邮件    1.4)朴素贝叶斯模型的一些问题2)拉普拉斯平

2015-01-02 20:16:19 3664

挖掘DBLP作者合作关系,FP-Growth算法实践

挖掘DBLP作者合作关系,FP-Growth算法实践 包括三个代码,一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有,很好用,已测试。

2016-11-07

dblp测试数据集

dblp测试数据集, 包括十六个会议的【部分内容】, 使用SDM, ICDM, ECML-­PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议,至少从2000年至今的所有数据。 应用代码参考:http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26

entity linking源码

使用lucene、lingpipe做实体连接(Entity Linking)。 数据来自dbpidia。 原始博客参考: http://blog.csdn.net/mmc2015/article/category/5795687 绝对值得参考。

2016-01-17

sql server 2008安装教程

sql server 2008安装教程,绝对详细。 每一步一个图。 不会的请留言,

2015-09-12

机器学习数据集,20news-bydate.rar

主要是解决这里的问题:http://blog.csdn.net/mmc2015/article/details/47971253#reply。数据集下载不下来,还是用现成的吧。

2015-09-06

20news-bydate.tar.gz

机器学习;数据集;20news; 机器学习数据集,主要是为不能用程序正常下载的同学准备。

2015-09-06

java读xml文件jar包

java读xml文件jar包,关于如何读写XML,参考:http://blog.csdn.net/mmc2015/article/details/47860133

2015-08-22

javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar

javaweb连接数据库包 mysql-connector-java-5.1.27-bin.jar

2015-08-15

java操作excel包 jxl.jar

java操作excel包 jxl.jar

2015-08-15

java发送邮件jar包 activation.jar

java发送邮件jar包 activation.jar

2015-08-15

java发送邮件jar包 mail.jar

mail.jar java 发送邮件的jar包

2015-08-15

mysql-connector-java-5.1.27-bin.jar

mysql-connector-java

2015-08-15

中文《机器学习实战》(注解版).pdf

中文版的《机器学习实战》。 和网上资源不同的是,加入了自己的注解,是初学者学习起来有重点,易理解。

2015-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除