是先对搜索词进行中文分词呢?还是在搜索过程中进行中文分词?

原创 2007年09月24日 09:20:00

原文发表在:http://paomadeng.javaeye.com/blog/126530

 

现在中文分词在开源界成为越来越关注的搜索技术,它成为衡量一个搜索引擎好坏的重要指标。

我对Lucene实现的中文分词技术也略有了解,也曾经实现过一个简单的中文分词方案。
现在比较流行的中文分词技术方案主要都集中在词库、正向/逆向搜索上,当然生成索引的时间效率上也是一个关键因素。
普遍的关注点还是集中在搜索过程中的索引技术。其中的技术难点:

1.词库的合理性?词之间的包容性: “中国人民解放军”应该作为几个分词?
2.同义词之间的相关性搜索?
3.同一词在谓词和名词上的不同处理?
…………

我的想法是对内容还是进行单字索引,而在搜索时,对搜索词进行分词处理,然后进行搜索?

呵呵,只是一想,不知道实现起来,性能方面是有问题?

有时间,准备测试一下

 

lucene的建立索引,搜索,中文分词

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包。 现在最新的lucene已经更新到6.0版本了。但是这个最新版,需要适配jdk1.80...
  • young_so_nice
  • young_so_nice
  • 2016年05月11日 12:17
  • 2072

lucene+ikanalyzer实现中文同义词搜索

lucene实现索引的创建与检索;ikanalyzer实现对中文的分词;光到这里已经能够实现中文的检索了,但是光这样还不够,很多项目中的检索,应该还能够对同义词进行处理,比如索引库中有“计算机”,“电...
  • yax405
  • yax405
  • 2015年01月28日 23:20
  • 3180

Python实现抓取链接/分词/索引/搜索关键词——简单搜索引擎

实验目的是用python编写网络搜索程序,完成对一个特定网站的文本搜索。对站内网页内容进行分词并建立倒排索引结构,通过输入文本词汇,检索出站内所有网页内容中出现过此文本的网页。     流程是:抓取...
  • qq_27483535
  • qq_27483535
  • 2016年11月13日 14:51
  • 2598

基于Lucene的搜索系统 同时使用Paoding进行中文分词 一

最近由于在做的电子商务网站,前台要频繁的进行搜索商品,列出符合条件的商品,由于商品数量之大,考虑到要用lucene来显示搜索功能,本文将通过一个简单的例子来告诉你lucene的实现和使用Paoding...
  • ajun_studio
  • ajun_studio
  • 2011年07月31日 21:10
  • 4484

基于Lucene的搜索系统 同时使用Paoding进行中文分词 二

在基于Lucene的搜索系统 同时使用Paoding进行中文分词 一 中讲解了利用lucene建立索引的过程以及对搜索条件,和结果封装,今天来看客户端是怎么调用透露给外部的servlet的 项...
  • ajun_studio
  • ajun_studio
  • 2011年08月12日 23:27
  • 1170

使用ICTCLA api进行中文分词实验的过程备忘

机器翻译最后一个大作业需要使用moses搭建一个机器翻译系统。其中有一步中要调用ICTCLA api实现中文分词,晚上稍稍熟悉了一下ICTCLA,大概了解了它的原理和使用方法,在此将使用它的方法和实验...
  • csdidi
  • csdidi
  • 2011年02月21日 21:23
  • 2542

基于Lucene的搜索系统 同时使用Paoding进行中文分词

  • 2011年08月01日 20:27
  • 12.47MB
  • 下载

python中文分词,使用结巴分词对python进行分词

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 基于Trie树结构实现...
  • yangjiyue0520
  • yangjiyue0520
  • 2017年11月04日 14:53
  • 52

Python利用结巴分词进行中文分词

利用结巴分词进行中文分词,选择全模式,建立词倒排索引,并实现一般多词查询和短语查询 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-...
  • jiahui_zhu
  • jiahui_zhu
  • 2015年12月03日 20:24
  • 3267

二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比

第一部分 引言         关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态...
  • u010189459
  • u010189459
  • 2014年08月01日 15:15
  • 2003
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:是先对搜索词进行中文分词呢?还是在搜索过程中进行中文分词?
举报原因:
原因补充:

(最多只允许输入30个字)