duskwaitor-CSDN博客

原创尝试在PYTHON中调用StanfordNLP，具体代码如下

#from nltk.parse import stanfordimport osfrom nltk.parse import stanford#添加stanford环境变量,此处需要手动修改，jar包地址为绝对地址。os.environ['STANFORD_PARSER'] = 'D:/stanford-parser/stanford-parser.jar'os.environ['S

2016-02-25 09:42:55 7243 2

原创 pandas学习(三)

1.从dataframe中删除一列del DF['column-name']，DF.drop('column_name', axis=1, inplace=True)DF = DF.drop('column_name', 1)2.从dataframe中删除多列删除多列df.drop([Column Name or list],inplace=True,axi

2015-06-14 10:57:22 1438

原创使用collapsed gibbs sampling对LDA中参数进行估计的推导过程

使用来表示文档--主题分布的超参数，使用来表示主题--词汇分布的超参数，这些超参数的先验分布被定义在一个狄利克莱分布中，如下所示：在给定参数的情况下，所有隐变量（主题）的概率被定义在一个多项式分布中，其中表示在文档m中，被赋给主题k的词汇数量。在给定参数的情况下，所有可观测变量（单词）的概率和所有的隐变量被定义在一个多项式分布中，其中表示语料库中单词v被赋予主题z的次数。注意，

2015-03-21 21:49:35 5312 2

原创概率图模型上的推断算法汇总

1.将最优化算法应用于因子乘积2.在概率图上进行信息传输，例如Max-product 信念传播3.integer programming，这是一种可用于离散空间上的最优化计算的方法，近年来基于该方法的MAP算法对之前MAP算法进行了整体性能上的提升，尤其对于逼近这种情况，4.对于一些概率图网络，可以使用graph-cut方法5.combinatorial search方法

2015-02-08 11:05:09 2203

原创狄利克莱过程模型(二)：狄利克莱过程分布的三个经典类比

关于DPP的三个经典类比，在本文中依次进行说明：首先是折棍子模型：将观测数据分配到不同群中的生成模型，就是一个折棍子的过程，它将一个变量的支持度(所谓支持度，采用了数据挖掘中关联规则抽取的术语了，意思就是概率，搞不明白为毛用支持度这个术语)分为相互不重叠的k个部分，首先，我们从一个长度为单位1的棍子开始，开始折这个棍子，我们根据下面算法在棍子上生成随机点：

2014-12-05 08:18:54 3734

原创狄利克莱过程模型(一)：非参数贝叶斯无限混合模型和Dirichlet过程

[作者按] 这篇文章是根据edwin Chen的博客 http://blog.echen.me/2012/03/20/infinite-mixture-models-with-nonparametric-bayes-and-the-dirichlet-process/和剑桥大学的一个ppt，http://mlg.eng.cam.ac.uk/zoubin/talks/uai05tutoria

2014-12-02 13:23:21 10530

原创贝叶斯统计:仿真

按照以往例子，还是从最简单的例子讲起。话说衡量肿瘤生长率是按照多长时间肿瘤长大一倍来算，当然没有直接用这个数，而是用它的倒数，学名叫做reciprocal doubling time(RDT)，换句话说，如果RDT=1,说明肿瘤在一年内长大了一倍，RDT=2说明，翻了两番，也就长大4倍，如果-1，表明缩小了一半。现在，一个美国老兵来找我，说他现在肿瘤的尺寸

2014-11-30 13:45:19 1133

原创贝叶斯统计:观测者偏移

文章作者说，由于工作关系，他要乘坐地铁，他们那里大约8分钟一趟地铁，如果他到地铁站时候发现人很少，他估计车刚走，得等7分钟左右，如果人很多，他认为很快就来车了，如果人多的不行了，估计交通阻塞，那么他就会打的。然后作者就想到了，能否用贝叶斯估计来帮忙预测等车时间，然后再帮他决定是继续等地铁还是打的。首先，做一个假设，旅客到达车站的时间分布是泊松过程，以lambda个人

2014-11-27 17:26:49 1293

原创贝叶斯统计：预测

作为一个恒大球迷，每赛季联赛开踢时候，我总是想，它会拿下下一场比赛吗，它会最终夺冠吗？像往常一样，回答这类问题，我们需要做一些假设：第一，可以合理地认为中国队被进球是一个泊松过程，也就是说，在比赛的任何时间内，恒大队进球的可能性都是相等的第二，我们认为每个队都有一个long-term的单场比赛平均进球数，也就是lambda;假设设定好以后，回答开篇问题的策略是：1.使用之

2014-11-26 18:08:41 2509

原创贝叶斯方法的决策分析

class Pdf(object): """Represents a probability density function (PDF).""" def Density(self, x): """Evaluates this Pdf at x. Returns: float probability density """ raise UnimplementedMethodException()

2014-11-26 08:28:11 1650

原创 html文件中标签的顺序以及使用ant的小TIPS

一.META的HTTP-EQUIV属性，其作用类似于HTTP头协议，它会告诉浏览器一些关于字符设定，页面刷新，cookie,和缓存等等相关信息。1：Content-Type：声明页面所适用的的字符集，以及页面文档属性。示例：告诉浏览器，该页面为HTML类文档，并且，适用gb2312(中文)作为默认字符。2:3:

2008-03-13 22:54:00 670