信息检索
文章平均质量分 63
HarryHuang1990
勤勤恳恳兢兢业业...
展开
-
Where Should the Bugs Be Fixed? 导读
该论文来自ICSE2012,点击下载该论文《Where should the bugs be fixed? More accurate information retrieval-based bug localization based on bug reports》这篇Papper使用信息检索的方法来实现file level的BUG定位。那么BUG定位到底如何理解呢?举个列子来说原创 2013-08-07 21:48:50 · 1421 阅读 · 0 评论 -
桌面环境与桌面搜索Desktop Search tools
最近一段时间工作重心都将放在Linux下Desktop search(桌面搜索)框架的研发上。因此对desktop search进行了初步的调研。本文将从下面三个方面展开:Linux桌面环境(Desktop Environment on Linux)现有的桌面搜索工具(Desktop Search tools)学术界对Desktop search的研究情况 Linux桌面环境(Desktop Environment on Linux) 首先来说说桌面环境。所谓桌面环境,就是在原来命令行时代的OS原创 2013-08-15 23:16:17 · 3341 阅读 · 1 评论 -
使用Apache POI抽取OFFICE文本(DOC, DOCX, XLS, XLSX, PPT, PPTX)——Desktop Search开发笔记【经验积累】
为了对文件内容进行索引,必须先抽取出文件中文本。我们使用Apache POI提供的API来抽取office文件(DOC, DOCX, XLS, XLSX, PPT, PPTX)中的文本。很多人在文件使用开源API的时候都很纳闷,Javadocs那么大,我要的API在到底在那个类里边。即使找到了也不明白这么多构造函数该用哪个创建想要的对象。本文给大家讲一下POI中我们该如何创建抽取(DOC, DOCX, XLS, XLSX, PPT, PPTX)的对象。原创 2013-09-22 09:17:53 · 5931 阅读 · 1 评论 -
处理Camel Case字符串的切分——Desktop Search 开发笔记【经验积累】
所谓Camel Case指的是若干个单词连接成一个字符串,每个word通过大写首字母的方式来区分。标准的Camel Case字符串,如"CamelCase" , "SquashOurMethodNamesTogetherLikeThis"。此外我们还经常与遇到一些非标准的Camel Case字符串,如:"UPPER2000UPPER", "hasABREVIATIONEmbedded", "Client2Server2012"在进行文本分析的时候,我们通常希望能够将Camel Case字符串的单词切分原创 2013-09-22 08:31:58 · 1820 阅读 · 0 评论 -
删除/清除/过滤标点(所有中英文标点)的正则表达式——Desktop Search开发笔记【经验积累】
在进行文本分析的时候我们经常需要过滤掉停用词,标点等,本文给大家介绍一下如何识别并删除文本中的所有标点符号。下面是三个可行的正则表达式方案,童鞋们来试试吧^_^(1) s.replaceAll( "\\p{Punct}", "" ); (2) s.replaceAll("\\pP" , ""); (3) s.replaceAll("\\p{P}" , ""); (1)不能完全清楚所有标点,(2)和(3)等价都能完全清楚标点(中文和英文都能清除)需要注意的是,还是存在一些系统原创 2013-09-22 08:43:46 · 20240 阅读 · 1 评论