文本挖掘
文章平均质量分 59
HarryHuang1990
勤勤恳恳兢兢业业...
展开
-
LDA主题模型用于BUG修复人推荐《DRETOM: developer recommendation based on topic models for bug resolution》
这项研究的论文来自PROMISE 2012,点击下载论文《DRETOM: developer recommendation based on topic models for bug resolution》LDA自从2003年由David Blei(刚发现Andrew Ng竟然也是提出者之一)提出后就一直火的不行,特别在机器学习和文本挖掘领域被广泛研究和应用,造诣可圈可点。LDA能够从文本中学习出潜在的topics,挖掘文本的潜在结构。该模型认为在某个特定的语料集中,任意一篇doc都是由给定的N个topi原创 2013-08-10 18:52:40 · 3516 阅读 · 2 评论 -
处理Camel Case字符串的切分——Desktop Search 开发笔记【经验积累】
所谓Camel Case指的是若干个单词连接成一个字符串,每个word通过大写首字母的方式来区分。标准的Camel Case字符串,如"CamelCase" , "SquashOurMethodNamesTogetherLikeThis"。此外我们还经常与遇到一些非标准的Camel Case字符串,如:"UPPER2000UPPER", "hasABREVIATIONEmbedded", "Client2Server2012"在进行文本分析的时候,我们通常希望能够将Camel Case字符串的单词切分原创 2013-09-22 08:31:58 · 1797 阅读 · 0 评论 -
使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】
为了对文件内容进行索引,必须先抽取出文件中文本。我们使用Apache POI提供的API来抽取office文件(DOC, DOCX, XLS, XLSX, PPT, PPTX)中的文本。很多人在文件使用开源API的时候都很纳闷,Javadocs那么大,我要的API在到底在那个类里边。即使找到了也不明白这么多构造函数该用哪个创建想要的对象。本文给大家讲一下POI中我们该如何创建抽取(DOC, DOCX, XLS, XLSX, PPT, PPTX)的对象。原创 2013-09-22 09:17:53 · 5856 阅读 · 1 评论 -
删除/清除/过滤标点(所有中英文标点)的正则表达式——Desktop Search开发笔记【经验积累】
在进行文本分析的时候我们经常需要过滤掉停用词,标点等,本文给大家介绍一下如何识别并删除文本中的所有标点符号。下面是三个可行的正则表达式方案,童鞋们来试试吧^_^(1) s.replaceAll( "\\p{Punct}", "" ); (2) s.replaceAll("\\pP" , ""); (3) s.replaceAll("\\p{P}" , ""); (1)不能完全清楚所有标点,(2)和(3)等价都能完全清楚标点(中文和英文都能清除)需要注意的是,还是存在一些系统原创 2013-09-22 08:43:46 · 19981 阅读 · 1 评论