自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (15)
  • 收藏
  • 关注

原创 降维:PCA

一直想总结一下降维的方法,借matchill老师的课,总结一下:PCA:PCA和ICA:降维方法:1、神经网络的隐含层2、LDA(线性判别分析)3、PCA4、ICA5、CCA6、信息增益(筛选特征)7、卡方检测

2015-04-26 16:54:23 999

原创 PAC-learning 新理解

finite H:agnostic learning:不可知学习infinite H:

2015-04-23 11:03:30 3084

原创 bayes network新理解(2)

1)Reading conditional independence relations from the graphEach node is conditionly independent of its non-descendents, given its immediate parents.D-separation 2)为什么需要Bayes Network样本数据不

2015-04-21 13:11:03 773

原创 LDA文本建模(4)——算法细节、伪代码、实现

上面的产生过程简单描述为:

2015-04-13 13:44:51 8892

原创 LDA文本建模(3)——pLSA模型和LDA模型

统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。1)LDA文本建模(1-2)里应该明白的结论beta分布是二项式分布的共轭先验概率分布: “对于非负实数和,我们有如下关系------------------(1)    其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布

2015-04-12 16:20:54 2754 2

原创 LDA文本建模(2)——MCMC和Gibbs Sampling

统计学中有一类重要的问题:给定一个概率分布P(x),如何在计算机中生成该分布对应的样本。MCMC(Markov Chain Monte Carlo)和Gibbs Sampling算法在现代贝叶斯分析中被广泛使用。1)MCMC(Markov Chain Monte Carlo)如,转移概率矩阵记为:初始概率分布向量为:π0=[π0(1), π0(2), π0(3)

2015-04-12 15:21:36 1733

原创 LDA文本建模(1)——数学基础

二个函数:Gamma函数、Beta函数五个分布:二项分布(Binomial)、多项分布(Multnomial)、Gamma分布、Beta分布、Dirichlet分布一个概念:共轭先验1)Gamma函数gamma函数性质:gamma函数和log(gamma)函数都是凸函数。2)Beta函数性质:3)Gamma分布

2015-04-12 14:17:24 1648

原创 Ng在coursera上的机器学习公开课——最终总结

认认真真的跟了所有的课程做了所有的习题编了所有的程序最后觉得Ng有些伤感前途是光明的,加油做人!

2015-04-08 17:43:29 1238

原创 bayes network新理解(1)

来自http://www.cs.cmu.edu/~tom/10701_sp11/Mitchell老师的公开课ppt参数个数,能想明白吗?(所有feature都是boolean)不明白构建贝叶斯信念网的算法?看下面的图,结点x3和x1是可以互换的

2015-04-07 20:02:48 1091

原创 Logistic Regression and Naive Bayes新的理解点

来自http://www.cs.cmu.edu/~tom/10701_sp11/Mitchell老师的公开课pptMAP相对于MLE而言,给出了待估计参数的先验概率;MLE仅仅根据训练集训练参数,而不考虑参数的先验概率:下面这张ppt说明了为什么要进行“regularization”以及regularization term的来源:

2015-04-07 10:58:39 1892

原创 【贪心算法,双机调度问题】:poj2751,Saving Endeavour

http://poj.org/problem?id=2751题意:2台机器,n件任务,每件任务必须先在S1上做,再在S2上做。任务之间先做后做任意。求最早的完工时间。经典问题:2台机器的情况下有多项式算法(Johnson算法),3台或以上的机器是NP-hard的。Johnson算法思想就是贪心,时间复杂度是O(nlogn) 。Johnson算法:   

2015-04-03 08:34:27 1478

挖掘DBLP作者合作关系,FP-Growth算法实践

挖掘DBLP作者合作关系,FP-Growth算法实践 包括三个代码,一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有,很好用,已测试。

2016-11-07

dblp测试数据集

dblp测试数据集, 包括十六个会议的【部分内容】, 使用SDM, ICDM, ECML-­PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议,至少从2000年至今的所有数据。 应用代码参考:http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26

entity linking源码

使用lucene、lingpipe做实体连接(Entity Linking)。 数据来自dbpidia。 原始博客参考: http://blog.csdn.net/mmc2015/article/category/5795687 绝对值得参考。

2016-01-17

sql server 2008安装教程

sql server 2008安装教程,绝对详细。 每一步一个图。 不会的请留言,

2015-09-12

机器学习数据集,20news-bydate.rar

主要是解决这里的问题:http://blog.csdn.net/mmc2015/article/details/47971253#reply。数据集下载不下来,还是用现成的吧。

2015-09-06

20news-bydate.tar.gz

机器学习;数据集;20news; 机器学习数据集,主要是为不能用程序正常下载的同学准备。

2015-09-06

java读xml文件jar包

java读xml文件jar包,关于如何读写XML,参考:http://blog.csdn.net/mmc2015/article/details/47860133

2015-08-22

javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar

javaweb连接数据库包 mysql-connector-java-5.1.27-bin.jar

2015-08-15

java操作excel包 jxl.jar

java操作excel包 jxl.jar

2015-08-15

java发送邮件jar包 activation.jar

java发送邮件jar包 activation.jar

2015-08-15

java发送邮件jar包 mail.jar

mail.jar java 发送邮件的jar包

2015-08-15

mysql-connector-java-5.1.27-bin.jar

mysql-connector-java

2015-08-15

中文《机器学习实战》(注解版).pdf

中文版的《机器学习实战》。 和网上资源不同的是,加入了自己的注解,是初学者学习起来有重点,易理解。

2015-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除