数据挖掘和自然语言处理
文章平均质量分 72
JUNSHICHAO
这个作者很懒,什么都没留下…
展开
-
主题模型LDA研究
最近一直在看关于LDA的东西,但是总的来说入门级别的定义还是百度搜索研http://发部的文章最经典。 原文: 点击打开链接 想要学习主题模型,还是要静下心来慢慢看。 关于LDA入门菜鸟级别的教程,有一个一二三的博客。 原文: 点击打开链接 关于主题模型和LDA的深层次的理解,还是要读论文吧~~ 教程就不行了。 很多经典的论文在网上也原创 2012-06-08 09:53:14 · 1643 阅读 · 0 评论 -
距离和相似性度量
相似性度量或者距离函数对于像聚类,邻域搜索这样的算法是非常重要的。前面也提到,网页去重复也是相似性应用的一个例子。然而,如何定义个合适的相似或者距离函数,完全依赖于手头的任务是什么。一般而言,定义一个距离函数d(x,y),需要满足以下几个准则: 1. d(x,x) = 0 ;//到自己的距离为0 2. d(x,y)>=0 // 距离要非负 3. 对称性,d(x,y) = d(y转载 2012-05-21 08:58:21 · 779 阅读 · 0 评论 -
libsvm 多分类遇到的问题
现在已经完全正确的调用了libsvm,我所处理的问题是利用libsvm进行文本分类 1 首先利用CHI进行特征提取 2 利用TFIDF进行权重提取 3 把文章组织成libsvm可以识别的格式 4 利用上面的三个步骤,就可以把数据传入libsvm进行训练,但是训练之前,还要进行参数调优,得到最好的c和g 5 参数调优的过程就是利用 python grid.原创 2012-10-10 09:28:50 · 2114 阅读 · 4 评论 -
中文分词与马尔科夫模型之二(隐马尔科夫模型与维特比)
前面一篇博客讲到了中文分词的机械分词算法,这种算法实现相对比较简单,但是分词效果还是有待商榷。比如下面这样一句话:产量三年中将增长两倍。按照机械分词的算法,它可能会被分成这样一种形式:产量 | 三年 | 中将 | 增长 | 两倍。 机械分词将‘中将’分成了一个词,的确‘中将’在词典中是有这么一个词,但在这句话中将它们划分成一个词显然是不合理的,于是一种新的方法就被提出来了 - 基于隐马尔科夫模型的转载 2012-11-20 15:11:11 · 744 阅读 · 0 评论