搜索引擎
思君黯然
主要方向:自然语言处理,文本分类
展开
-
Apache Lucene 3.x推荐教程
介绍:Apache Lucene是一个基于 Java的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene目前是著名的 Apache Jakarta家族中的一个开源项目,也是目前最为流行的基于 Java开源全文检索工具包。 第一部分:概述我们在很多地方都可以看到搜索功能Windows系统中的有搜索功能:转载 2015-04-01 13:06:17 · 633 阅读 · 0 评论 -
lucene(全文搜索)_luceneweb例子
先来看看效果图:由于我没"D:\opt\lucene\index",所以不能搜索出东东...下载地址:http://apache.dataguru.cn/lucene/java/2.9.4/lucene-2.9.4-src.zip (包含源码)lucene-2.9.4.zip项目结构:===================================转载 2015-04-03 22:36:24 · 765 阅读 · 0 评论 -
基于二元语法模型的中文分词
一、 基于二元语法模型分词的思想 下面是该程序的主要过程与思路:1、针对语料库进行训练。本程序使用的是北大提供的人民日报1998 年1 月的语料库,包含约110万词。由于采用二元语法模型,所以需要计算语料库中单个词的频率,以及每一个词后面出现另一个词的频率。2、建立二元切分词图。 建立一个有向无环图,图中的结点为任意一个可能的候选词语,图中的边代表相邻两个词语的续接转载 2015-06-24 13:01:15 · 5628 阅读 · 0 评论