目录
1基本信息
背景
作用
影响
2算法分类
字符匹配
理解法
统计法
3技术难点
歧义识别
新词识别
4应用
5常见项目
SCWS
FudanNLP
ICTCLAS
HTTPCWS
CC-CEDICT
IK
Paoding
MMSEG4J
盘古分词
Jcseg
friso
6中文分词API
-
参数说明可传参数,如下:
参数
|
类型
|
是否可选
|
意义
|
枚举
|
备注
|
---|---|---|---|---|---|
text
|
String
|
是
|
需要分词文字或文章
|
默认:
Foxapi 是一个针对开发者提供一些预先定义的接口,通过该接口开发者可以获取到相应的数据信息,方便开发者调用数据,从而间接减少代码编写。 | |
separator
|
String
|
是
|
分词符号
|
默认:/
| |
freqfirst
|
Boolean
|
是
|
优先判断词频。
如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。 如:香格里拉酒店的词频比香格里拉和酒店的词频都要低,则忽略香格里拉酒店。 |
默认:true
| |
matchname
|
Boolean
|
是
|
是否匹配汉语人名
|
默认:true
| |
multiselect
|
Boolean
|
是
|
多元分词选项,分词将更细致。
如:微软是大公司。 true 则分为 微软/是/大/公司 false 则分为 微软/是/大公司 |
默认:false
| |
apiid
|
String
|
否
|
API标识码
|
FOXAPI的每个应用都必须使用APIID,用来记录API操作。
请到用户中心获取APIID | |
alt
|
Alt
|
是
|
返回的数据格式
|
1.xml → XML形式展示数据;
2.json → json形式展示数据; |
默认:xml
|
-
返回内容该API返回的网站信息,如下:<?xml version="1.0" encoding="UTF-8"?><root><text>Foxapi/ /是/一个/针对/开发者/提供/一些/预先/定义/的/接口/,/通过/该/接口/开发者/可以/获取/到/相应/的/数据/信息/,/方便/开发者/调用/数据/,/从而/间接/减少/代码/编写/。/</text></root>参数说明:
参数
|
类型
|
意义
|
备注
|
---|---|---|---|
text
|
String
|
返回的分词后内容
| |
errormsg
|
String
|
API错误信息
|
当访问API出现错误时,数据里面将出现此节点,否则不出现。
|
一、什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。
中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。
Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
二、 ICTCLAS中国科学院计算技术研究所
中文词法分析是中文信息处理的基础与关键。
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。
主要功能包括:
中文分词;词性标注;命名实体识别;新词识别;
同时支持用户词典。
我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine
三、海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
四、其他
(1)CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/
(2) C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48
-
参考资料
-
-
1. 搜索引擎技术之中文分词 .www.shenzhenfob.com [引用日期2012-12-20] .
-
2. jcseg中文分词 .google code [引用日期2012-10-19] .
-
3. friso开源高性能中文分词组建 .google code [引用日期2013-01-10] .
-
一、什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。
中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。
Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
二、 ICTCLAS中国科学院计算技术研究所
中文词法分析是中文信息处理的基础与关键。
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。
主要功能包括:
中文分词;词性标注;命名实体识别;新词识别;
同时支持用户词典。
我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine
三、海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
四、其他
(1)CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/
(2) C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48