中文分词适合于网站吗?

原创 2007年09月21日 09:47:00

原文发布在http://paomadeng.javaeye.com/blog/125838

OSPod.Forum希望能够成为跨数据库的应用产品,因此在全文检索的技术方案上没有选择数据库的全文检索方案,毕竟象MySQL这样的开源数据库或者HSQL这样的袖珍数据要集成全文检索功能还是比较麻烦的。因此通过分析,我们选择了lucene作为全文检索的支持。

        在使用Lucene的过程中,比较难选择的就是分析器。选择Lucene自带的CJKAnalyer?ChineseAnalyer?StandardAnalyer?还是使用带有中文分词的分析器?

        选型评判目标:
 1.支持多语言
 2.性能如何
 3.是结果越多越好?还是把结果缩小在最小范围?
       
 结论:
 1.CJKAnalyer实现非常不错,对中、日、韩支持不错,支持部分中文分词(双字),但是不支持3个以上汉字词组的搜索。
 2.ChineseAnalyer不支持中文分词。
 3.StandardAnalyer,不支持中文分词,在多语言方面支持不错。
 4.中文分词,的确搜索结果精确了,但是在词库方面要求很全面,性能方面、智能化方面都有比较高的要求。可是这是用户需要的结果吗?
 参考百度、Google等大家,最后决定论坛产品是非专业产品,因此搜索出尽可能多的合理结果才是最重要的,因此决定选择StandardAnalyer作为分析器。 

       仅代表个人意见,欢迎大家批评指正。

中文分词综述

现有分词介绍: 自然语言处理是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类语言的一种技术。在其中,分词技术是一种比较基础的模块。对于英文等拉丁语系而言,由于词之间有空格作为词边际...
  • weekyin
  • weekyin
  • 2016年08月04日 15:10
  • 959

【中文分词】亲手开发一款中文分词器——源代码

这里提供我开发的中文分词器源代码。代码分为三个部分: (一)状态矩阵元素对象GNode。    动态规划中,状态矩阵的元素需要记录当前最大概率和前一个最优匹配状态,这个矩阵是一个二维数组,每一个元素就...
  • mychaint
  • mychaint
  • 2015年07月09日 10:01
  • 932

中文分词常用方法简述

中文分词就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。三类分词算法:1. 基于字符串匹配:将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。...
  • G88JmvEHMsJ1kd4v0c
  • G88JmvEHMsJ1kd4v0c
  • 2017年10月11日 00:00
  • 4131

中文分词算法总结

什么是中文分词 众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一...
  • Yelbosh
  • Yelbosh
  • 2015年05月21日 19:55
  • 26220

Spark 大数据中文分词统计 (一) 开发环境搭建

几年前搞BI项目时就听说过大数据技术,当时也买了书,可惜没有认真去学。几年5月份 开始,报名参加王家林老师的大数据蘑菇云行动,才算真正开始学习Spark,学习大数据技术。           网上很多...
  • yangdanbo1975
  • yangdanbo1975
  • 2016年08月13日 10:07
  • 2442

用HMM模型进行中文分词

用HMM模型进行中文分词
  • PKU_ZZY
  • PKU_ZZY
  • 2017年02月22日 09:49
  • 986

Python中文分词 jieba 十五分钟入门与进阶

整体介绍jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐 github:https://github.com/fxsjy/jieba...
  • FontThrone
  • FontThrone
  • 2017年05月27日 16:21
  • 7099

中文分词原理和实现

三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法 定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配...
  • shibing624
  • shibing624
  • 2016年06月17日 11:22
  • 15337

NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较

笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远...
  • sinat_26917383
  • sinat_26917383
  • 2016年11月25日 14:02
  • 13131

中文分词学习总结

中文分词 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行...
  • bcbobo21cn
  • bcbobo21cn
  • 2016年03月30日 19:14
  • 3415
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:中文分词适合于网站吗?
举报原因:
原因补充:

(最多只允许输入30个字)