中科院中文分词系统--字典结构

原创 2006年06月20日 09:37:00

中科院中文分词系统--字典结构

中科院中文分词系统(以下称:分词系统)一个很关键的部分就是他的字典,搞清楚字典的结构对我们进一步研究分词系统有很大的帮助。在这套分词系统中,有两种结构的字典,一种是保存常用词的词典,一种是保存字之间上下文关系的词典。这节分析的是第一种。

 

 

这节分析的是第二种

 

 

 

相关文章推荐

中科院中文分词系统ICTCLAS之CSegment的GenerateWord()详细分析

原文地址:http://blog.csdn.net/dancefire/article/details/1606602 一、简介 这次分析的是ICTCLAS中的 //Generate...

ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注

原文地址:http://qxred.ycool.com/post.1204714.html 中科院分词系统概述 这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解...

针对中科院汉语分词系统nlpir中的中文分词部分在java环境的部署(Linux和windows)(获取关键词)

针对中科院汉语分词系统nlpir中的中文分词部分在java环境的部署(Linux和windows)(获取关键词) 主要部分详细代码:开发工具ecliplse; 本文没有做太详细的步骤解析: 但只需要...
  • lbf5210
  • lbf5210
  • 2015年10月28日 15:02
  • 1031

ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注(2009-06-18 更新 可下载)

转载自:http://hi.baidu.com/huabk/item/9b0f4d5f0d970609e6c4a5cb ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注 风暴...
  • memray
  • memray
  • 2013年11月03日 16:25
  • 2861

让中科院中文分词系统ICTCLAS为lucene所用的简单程序(C#版)

利用了吕震宇根据Free版ICTCLAS改编而成.net平台下的ICTCLAS,把ICTCLAS的分词为lucene所用。以下是我写的程序,比较简单。大家看看评评,有什么要改进的地方,望大家指出 A...

中科院中文分词系统ICTCLAS之人名识别词典分析

请在阅读本文前,先确认已阅读过论文《张华平,刘群.基于角色标注的中国人名自动识别研究》。 论文把与人名相关的词分为了15个角色,通过词典查询,可以判断某些文字、词所属角色,然后根据模式匹配找...

中科院开发的一个中文分词系统

  • 2010年03月09日 23:43
  • 5.64MB
  • 下载

4款开源的中文分词系统

中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词。以下介...
  • netbite
  • netbite
  • 2011年05月04日 12:47
  • 159

简易中文分词系统实现 c++

*******************************中文分词模块********************************************************* ****...
  • jsywzk
  • jsywzk
  • 2013年03月26日 13:43
  • 450
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:中科院中文分词系统--字典结构
举报原因:
原因补充:

(最多只允许输入30个字)