2015年04月_mmc2015

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创降维：PCA

一直想总结一下降维的方法，借matchill老师的课，总结一下：PCA：PCA和ICA：降维方法：1、神经网络的隐含层2、LDA（线性判别分析）3、PCA4、ICA5、CCA6、信息增益（筛选特征）7、卡方检测

2015-04-26 16:54:23 999

原创 PAC-learning 新理解

finite H：agnostic learning：不可知学习infinite H：

2015-04-23 11:03:30 3084

原创 bayes network新理解（2）

1）Reading conditional independence relations from the graphEach node is conditionly independent of its non-descendents, given its immediate parents.D-separation 2）为什么需要Bayes Network样本数据不

2015-04-21 13:11:03 773

原创 LDA文本建模（3）——pLSA模型和LDA模型

统计文本建模的问题就是：追问这些观察到的语料库中的词序列是如何生成的。1）LDA文本建模（1-2）里应该明白的结论beta分布是二项式分布的共轭先验概率分布： “对于非负实数和，我们有如下关系------------------（1）其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布，参数的先验分布

2015-04-12 16:20:54 2754 2

原创 LDA文本建模（2）——MCMC和Gibbs Sampling

统计学中有一类重要的问题：给定一个概率分布P(x)，如何在计算机中生成该分布对应的样本。MCMC(Markov Chain Monte Carlo)和Gibbs Sampling算法在现代贝叶斯分析中被广泛使用。1）MCMC(Markov Chain Monte Carlo)如，转移概率矩阵记为：初始概率分布向量为：π0=[π0(1), π0(2), π0(3)

2015-04-12 15:21:36 1733

原创 LDA文本建模（1）——数学基础

二个函数：Gamma函数、Beta函数五个分布：二项分布（Binomial）、多项分布（Multnomial）、Gamma分布、Beta分布、Dirichlet分布一个概念：共轭先验1）Gamma函数gamma函数性质：gamma函数和log(gamma)函数都是凸函数。2）Beta函数性质：3）Gamma分布

2015-04-12 14:17:24 1648

原创 Ng在coursera上的机器学习公开课——最终总结

认认真真的跟了所有的课程做了所有的习题编了所有的程序最后觉得Ng有些伤感前途是光明的，加油做人！

2015-04-08 17:43:29 1238

原创 bayes network新理解（1）

来自http://www.cs.cmu.edu/~tom/10701_sp11/Mitchell老师的公开课ppt参数个数，能想明白吗？（所有feature都是boolean）不明白构建贝叶斯信念网的算法？看下面的图，结点x3和x1是可以互换的

2015-04-07 20:02:48 1091

原创 Logistic Regression and Naive Bayes新的理解点

来自http://www.cs.cmu.edu/~tom/10701_sp11/Mitchell老师的公开课pptMAP相对于MLE而言，给出了待估计参数的先验概率；MLE仅仅根据训练集训练参数，而不考虑参数的先验概率：下面这张ppt说明了为什么要进行“regularization”以及regularization term的来源：

2015-04-07 10:58:39 1892

原创【贪心算法，双机调度问题】：poj2751，Saving Endeavour

http://poj.org/problem?id=2751题意：2台机器，n件任务，每件任务必须先在S1上做，再在S2上做。任务之间先做后做任意。求最早的完工时间。经典问题：2台机器的情况下有多项式算法（Johnson算法），3台或以上的机器是NP-hard的。Johnson算法思想就是贪心，时间复杂度是O(nlogn) 。Johnson算法：

2015-04-03 08:34:27 1478

挖掘DBLP作者合作关系，FP-Growth算法实践

挖掘DBLP作者合作关系，FP-Growth算法实践包括三个代码，一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有，很好用，已测试。

2016-11-07

dblp测试数据集，包括十六个会议的【部分内容】，使用SDM, ICDM, ECML-PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议，至少从2000年至今的所有数据。应用代码参考：http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26