自然语言处理(NLP)
文章平均质量分 69
gdufs_iiip
这个作者很懒,什么都没留下…
展开
-
在NETBEANS上使用中科院汉语分词系统ICTCLAS2009共享版
我在网上注意到没有什么信息是与在NETBEANS上实现ICTCLAS2009共享版有关的,所以,把我的实现经验写出来和大家分享。 首先,到http://ictclas.org/下载ICTCLAS2009共享版的代码,解压后,你会看到一个叫到“sample”的文件夹,里面是实现示例,可以直接在DOS界面用JAVAC和JAVA命令来运行示例程序看一下效果。原创 2009-08-09 12:51:00 · 1068 阅读 · 2 评论 -
使用中科院汉语分词系统ICTCLAS2009共享版(JNI)会出现的问题
1. 在使用中科院汉语分词系统ICTCLAS2009共享版(JAVA)的过程中,你可能会遇到这样的问题提示:## An unexpected error has been detected by Java Runtime Environment:## EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x03f75b46, pid=2872, tid原创 2009-08-09 13:13:00 · 1786 阅读 · 1 评论 -
lucene + IKAnalyzer 中文分词及索引,简单实例
import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.DateTools; import org.apache.lucene.index.IndexWriter; impo转载 2009-08-26 18:43:00 · 1745 阅读 · 0 评论 -
使用LUCENE快速实现属于自己的英文分词程序——附简单实现
简单的英文分词程序现在已经有很多现成的JAR包实现了此功能,最流行的就是LUCENE里的analysis包,analysis包里包含许多类型的分词器、过滤器、分析器,可以让我们自由组合实现我们需要的功能。 使用LUCENE的analysis包,可以快速实现按照字符分割的英文分词,附带过滤停用词功能的分词器(有默认的停用词表,也可以自己指定,指定方式有多种:包括停用词表的文本文档;把停用词加原创 2010-02-26 14:46:00 · 1967 阅读 · 0 评论 -
能“穿越时空”的新搜索引擎
新闻来源:Technology Review过去,人们曾试过以一条时间轴来显示新闻故事。而现在,雅虎的巴塞罗那研究实验室研发的时间探险家(Time Explorer)新闻搜索引擎原型能够生成贯穿过去与未来的时间轴。时间探险家的结果页上最重要的组成部分是一条互动的时间轴。这条时 间轴能够显示出关于某特定搜索词的相关文章在时间上的数量变化。最有可能相关的文章会出现在时间轴上,并标明了发布日期。若用户将这条时间轴移到未来的 话,任何提到未来某一时点的相关文章就会显示出来。它不仅提供了一种查看新闻的新方式,还使人们转载 2010-08-29 09:54:00 · 485 阅读 · 0 评论 -
一种高效的搜索结果多层聚类方法
以Google和百度为代表的搜索引擎,在用户输入关键词进行查询后,返回的是成千上万的相关结果,往往需要用户花大量时间浏览与选择,不能满足用户快速获取信息的愿望。为了解决这一问题,很多学者开始研究检索结果聚类算法。当前检索结果聚类方法主要可以分为两类:基于文档的方法和基于标签的方法。基于文档的方法通常是先使用余弦夹角公式计算文本相似度,再采用传统的文本聚类算法对检索结果进行聚类,最后使用一种加权策略提取具有代表性的词或句子作为类别标签。 提出一种基于名词短语的检索结果多层聚类方法(multi-l原创 2011-04-15 08:41:00 · 968 阅读 · 1 评论 -
DARPA Seeks To Learn From Social For Warfare
Agency aims to explore how the use of social media--particularly on mobile devices--can be used to help wage military campaigns. By Eli转载 2011-08-12 19:12:32 · 1290 阅读 · 0 评论