是先对搜索词进行中文分词呢?还是在搜索过程中进行中文分词?

原创 2007年09月24日 09:20:00

原文发表在:http://paomadeng.javaeye.com/blog/126530

 

现在中文分词在开源界成为越来越关注的搜索技术,它成为衡量一个搜索引擎好坏的重要指标。

我对Lucene实现的中文分词技术也略有了解,也曾经实现过一个简单的中文分词方案。
现在比较流行的中文分词技术方案主要都集中在词库、正向/逆向搜索上,当然生成索引的时间效率上也是一个关键因素。
普遍的关注点还是集中在搜索过程中的索引技术。其中的技术难点:

1.词库的合理性?词之间的包容性: “中国人民解放军”应该作为几个分词?
2.同义词之间的相关性搜索?
3.同一词在谓词和名词上的不同处理?
…………

我的想法是对内容还是进行单字索引,而在搜索时,对搜索词进行分词处理,然后进行搜索?

呵呵,只是一想,不知道实现起来,性能方面是有问题?

有时间,准备测试一下

 
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

基于Lucene的搜索系统 同时使用Paoding进行中文分词 一

最近由于在做的电子商务网站,前台要频繁的进行搜索商品,列出符合条件的商品,由于商品数量之大,考虑到要用lucene来显示搜索功能,本文将通过一个简单的例子来告诉你lucene的实现和使用Paoding...

基于Lucene的搜索系统 同时使用Paoding进行中文分词 二

在基于Lucene的搜索系统 同时使用Paoding进行中文分词 一 中讲解了利用lucene建立索引的过程以及对搜索条件,和结果封装,今天来看客户端是怎么调用透露给外部的servlet的 项...

使用ICTCLA api进行中文分词实验的过程备忘

机器翻译最后一个大作业需要使用moses搭建一个机器翻译系统。其中有一步中要调用ICTCLA api实现中文分词,晚上稍稍熟悉了一下ICTCLA,大概了解了它的原理和使用方法,在此将使用它的方法和实验...
  • csdidi
  • csdidi
  • 2011-02-21 21:23
  • 2454

Python利用结巴分词进行中文分词

利用结巴分词进行中文分词,选择全模式,建立词倒排索引,并实现一般多词查询和短语查询 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-...

二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比

第一部分 引言         关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态...

用条件随机场CRF进行字标注中文分词(Python实现)

本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。     ...

使用NLPIR 进行中文分词并标注词性

背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个任...

用最大熵模型进行字标注中文分词(Python实现)

同前面的那篇文章一样(参见:最大熵模型进行中文分词),本文运用字标注法进行中文分词,分别使用4-tag和6-tag对语料进行字标注,观察分词效果。前面的文章中使用了模型工具包中自带的一个样例进行4-t...

R语言进行中文分词和聚类

原文来自:http://www.csdn123.com/html/itweb/20130911/113549_113527_113553.htm 目标:对大约6w条微博进行分类 环境:R语言  ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)