自然语言
文章平均质量分 68
wangzhiqing3
学生
展开
-
基于向量空间模型的文本分类算法
基于向量空间模型的文本聚类算法[日期:2009-07-27]来源: 作者:[字体:大 中 小]姚清耘,刘功申,李翔( 上海交通大学信息安全工程学院,上海 200240) 摘要: 文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法—— LP 算法。同转载 2011-12-12 15:11:45 · 8852 阅读 · 0 评论 -
simhash
传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相原创 2013-10-05 15:08:02 · 4883 阅读 · 0 评论 -
浅析pagerank
很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题,同时讨论早期搜索引擎关于结果页面重要性评价算法的困境,借此引出PageRank产生的背景。第二部分会详细讨论PageRank的思想来源、基础框架转载 2013-10-04 22:13:00 · 6102 阅读 · 0 评论 -
PCA
PCA的一些基本资料最近因为最人脸表情识别,提取的gabor特征太多了,所以需要用PCA进行对提取的特征进行降维。本来最早的时候我没有打算对提取的gabor特征进行降维,但是如果一个图像时64*64,那么使用五个尺度八个方向的gabor滤波器进行滤波,这样提取的特征足足有64*64*5*8这么多,如果图像稍微大一点,比如128*128的图像,那么直接提取的特征就会几十万,所以不降维转载 2013-09-30 13:54:30 · 20473 阅读 · 6 评论 -
协方差
协方差的定义 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧。记住,X、Y是一个列向量,它表示了每种情况下每个样本可能出现的数。比如给定则X表示x轴可能出现的数,Y表示y轴可能出现的。注意这里是关键,给定了4原创 2013-09-30 13:39:00 · 6154 阅读 · 0 评论 -
crf++_use
1. 简述 最近要应用CRF模型,进行序列识别。选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信息。 参考资料是CRF++的官方网站:CRF++: Yet Another CRF toolkit,网上的很多关于CRF++的博文就是这篇文章的全部或者部分的翻译,本文也翻译了一些。2原创 2013-03-06 10:21:04 · 902 阅读 · 0 评论 -
相似度计算常用方法综述
引言 相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用,进行一些常用的相原创 2012-12-14 08:45:23 · 21099 阅读 · 0 评论 -
大哉,计算语言学之为用!(冯志伟)
采用计算机技术来研究和处理自然语言是20世纪40年代末期和50年代才开始的,60多年来,这项研究取得了长足的进展,成为了现代语言学中一门重要的新兴学科,叫做“计算语言学”(ComputationalLinguistics,简称CL),这门学科同时也属于计算机科学的一个分支,叫做“自然语言处理”(Natural LanguageProcessing,简称NLP)。 我认为,计算机对自然语言的转载 2012-12-24 09:30:47 · 1934 阅读 · 0 评论 -
Topic modeling made just simple enough
在微博上看到 @c0d3r_Jia 同学发的一条信息:这篇讲LDA更”人道”一些,比那些用来证明自己算法正确的文章清楚很多。不过也提到,LDA或者概率模型要用好,需要不断的筛选features、精选进行操作的token才行。// Topic modeling made just simple enoughhttp://t.cn/zOpOc4D //喜欢这样的文章是不是就是Sheldon转载 2012-04-18 22:18:26 · 1242 阅读 · 0 评论 -
基于wikipedia的摘要系统
传统的基于图的摘要,我们所选择作为摘要的句子,不仅应该与主题相似而且相似于与主题有很高相似度的句子。 基于 wikipedia相似度计算方法分为四部曲。 The first one is sentence wikipedia. 传统的BOW方法是利用tf-tdf把句子刻画成一个词的向量。本文中把句子wikipedia化的方法是利用exact—match策略,首先抽取w翻译 2012-04-16 11:23:45 · 773 阅读 · 0 评论 -
自然语言处理相关书籍及其他资源
特别推荐:1、HMM学习最佳范例全文文档2、无约束最优化全文文档一、书籍:1、《自然语言处理综论》英文版第二版2、《统计自然语言处理基础》英文版3、《用Python进行自然语言处理》,NLTK配套书4、《Learning Python第三版》,Python入门经典书籍,详细而不厌其烦5、《自然语言处理中的模式识别》6、《EM算法及其扩展》7、《统计学习基原创 2012-04-11 21:27:31 · 1996 阅读 · 0 评论 -
数学之美-奇异值分解
我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。在自然语转载 2012-04-06 10:38:36 · 6346 阅读 · 0 评论 -
假设检验
假设检验是除参数估计之外的另一类重要的统计推断问题。它的基本思想可以用小概率原理来解释。所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。也就是说,对总体的某个假设是真实的,那么不利于或不能支持这一假设的事件A在一次试验中是几乎不可能发一的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。 假设检验会犯得两个错误是:1。原假设本来为真,却被否原创 2012-04-05 09:18:32 · 1070 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类算法(上)
转载请保留作者信息:作者:phinecos(洞庭散人)Blog:http://phinecos.cnblogs.com/Email:phinecos@163.com Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而转载 2011-12-13 18:09:48 · 1248 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类(下)
源代码下载:NaviveBayesClassify.rar Preface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法(上)》一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理论转载 2011-12-13 18:10:08 · 1428 阅读 · 0 评论 -
wiki上一个比较好的HMM例子
HMM(隐马尔科夫模型)是自然语言处理中的一个基本模型,用途比较广泛,如汉语分词、词性标注及语音识别等,在NLP中占有很重要的地位。网上关于HMM的介绍讲解文档很多,我自己当时开始看的时候也有点稀里糊涂。后来看到wiki上举得一个关于HMM的例子才如醍醐灌顶,忽然间明白HMM的三大问题是怎么回事了。例子我借助中文wiki重新翻译了一下,并对三大基本问题进行说明,希望对读者朋友有所帮助: Al原创 2012-04-17 10:28:56 · 1382 阅读 · 0 评论