3. 中文分词技术
文章平均质量分 50
Kangsheng
这个作者很懒,什么都没留下…
展开
-
中文搜索引擎技术揭密: 中文分词(三)
中文分词技术 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典原创 2005-03-19 10:55:00 · 4334 阅读 · 0 评论 -
中科院ICTCLAS系统,ICTCLAS.dll的函数调用示例(C语言)
// ICTCLAS_DOS.cpp : Defines the entry point for the console application.//#include "stdafx.h"#include "ICTCLAS.h"#include int main(int argc, char* argv[]){ //Sample1: Sentence or paragraph lexical an原创 2005-03-19 12:35:00 · 4918 阅读 · 1 评论 -
中文搜索引擎技术揭密: 中文分词(四)
分词中的难题 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 1、歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“原创 2005-03-19 10:53:00 · 2744 阅读 · 0 评论 -
中文搜索引擎技术揭密: 中文分词(二)
转自:e800.com.cn 中文分词和搜索引擎 中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题原创 2005-03-19 10:56:00 · 2757 阅读 · 0 评论 -
中文搜索引擎技术揭密: 中文分词(一)
来源:e800.com.cn 前言 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite原创 2005-03-19 10:58:00 · 3005 阅读 · 0 评论 -
不同规则的中文分词对Lucene索引的影响
转自:田春峰在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。 在lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。 这里主要对比以下3种中文切分对lucene 索引的影响。 第一种:默认的单字切分; 第二种:二元切分(见车东的文章); 第三种:按照词义切分(使用小叮咚的逆向最大切分法)。 上面3种切分的效果如下原创 2005-03-19 12:34:00 · 3034 阅读 · 0 评论 -
分词词频分析和高频词搜索分布
转自:六翼的天使1] 针对分词的系统,任何一个词出现的频率可以用如下的方法表达:P(I) = N(I) / Sigma(N(J)) 分布见图12] 对于任何两个词之间的相关性的分析,相关性的分布如图 2 (乘了系数1000)超过1000的都是完全相关的词汇,例如手提电脑和便携电脑的相关系数在1500。3] 针对Booso 搜索词的频率分布的统计分布 见图3:在非常少的概率部分符合泊松分布。极高频词原创 2005-03-19 12:39:00 · 4872 阅读 · 0 评论 -
什么是中文分词及中文分词的应用
什么是中文分词? 何为分词?中文分词与其他的分词又有什么不同呢?分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。中文分词的意义和作用 要想说清楚中文原创 2005-03-22 11:07:00 · 3681 阅读 · 2 评论