中文分词技术一席谈之典型分词方法漫谈

最新推荐文章于 2024-09-20 23:31:36 发布

hello9050

最新推荐文章于 2024-09-20 23:31:36 发布

阅读量1k

点赞数

分类专栏：中文分词文章标签：自然语言处理数据挖掘框架语言互联网算法

中文分词专栏收录该内容

8 篇文章 0 订阅

订阅专栏

2010-08-20 13:35:28

标签：自然语言处理搜索分词文本分析数据挖掘休闲职场

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。 http://langiner.blog.51cto.com/1989264/380563

中文分词技术一席谈之典型分词方法漫谈

Langiner

Langiner@gmail.com

目录

机械分词（FMM、BMM、全切分）

产生式分词（Naive Ngram分词、Class-based Ngram分词）

判别式分词（Maxent分词、CRF分词、感知机分词）

机械分词（查词典）
FMM/BMM：北京航天航空大学梁南元教授提出

定义：

把句子从左向右（从右向左）扫描一遍，遇到字典里有的最长词就标识出来，遇到不认识的字串就分割成单字词。
例如：词典如下
小沈阳
沈阳
演出
分成
成都
都
均
为
是
9:1

句子实例：小沈阳演出收入分成均为9:1
FMM：小沈阳/演出/收入/分成/均/为/9:1 （正确）
BMM：小沈阳/演出/收入/分成/均/为/9:1 （正确）

句子实例：小沈阳演出收入分成都是9:1
BMM：小沈阳/演出/收入/分成/都/是/9:1 （正确）
FMM：小沈阳/演出/收入/分/成都/是/9:1 （错误）

词典
内塔尼亚胡
胡说
说
的
的确
确实
实在
在理

实例
句子实例：内塔尼亚胡说的确实在理
FMM：内塔尼亚胡/说/的确/实在/理（错误）
BMM：内塔尼亚/胡说/的/确实/在理（错误）

全切分：获得文本所有可能的切分结果，得到所有切分单元

句子实例：他说的确实在理

切分实例：

机械分词的优点

程序简单易行，开发周期短
没有任何复杂计算，分词速度快

机械分词的不足
不能处理歧义
不能识别新词
分词精度不能满足实际的需要（规范文本 80%，互联网文本在70%左右）

生成式统计分词
原理
首先建立学习样本的生成模型，再利用模型对预测结果进行间接推理

两个假设前提
马尔可夫假设
当前状态出现的概率仅同过去有限的历史状态有关，而与其他状态无关。具体到分词任务，就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词，而与其他词无关。

输出独立性假设
当前状态的输出仅仅取决于当前状态本身，而与其他状态无关。

Navie N-gram分词
学习过程(利用MLE估计)
P(wt|wt-1)=(Count(wt,wt-1))/Count(wt-1)

分词推导
P(W|O)=maxP(W|O)=maxP(w1w2...wn|o1,o2...om)=maxP(wt|wt-1,ot)
W：分词结果
O：待分词文本

分词过程
第一步：全切分
第二步：Viterbi动态规划，找到贯穿句子的路径并计算每条路径的概率
第三步：选择概率最大的路径为切分结果

Ngram分词评价
能够处理大多数常用词带来的歧义问题
不能处理新词以及新词带来的歧义问题

改善Naive Ngram不足之道：Class-based Ngram
在统一的框架下进行分词与新词识别
将词分为若干类
词典词：教师（词典处理）
仿词：2000年（规则处理）
新词：刘德华（基于类的新词识别）
形态词：高高兴兴（规则处理）
不同类型的词用不同处理方法，最后利用Ngram框架寻找全局最优切分结果
给定字符串S=s1s2…sn , 找最优的类序列C=c1c2…cm 使得P(C|S) 最大
下载中文分词一席谈.ppt看完整的数学推导

优点
在训练语料规模足够大和覆盖领域足够多的情况下，可以获得较高的切分正确率（>=95%）
不足
需要很大的训练语料
新词识别能力弱
解码速度相对较慢

具体方法：可以Google/Baidu上搜索中文分词一席谈.ppt下载ppt文档了解详情。

判别式分词
原理
在有限样本条件下建立对于预测结果的判别函数，直接对预测结果进行判别，建模无需任何假设。
由字构词的分词理念，将分词问题转化为判别式分类问题

典型算法
Maxent SVM CRF Perceptron

优势
能充分利用各种来源的知识
需要较少的训练语料
解码速度更快
新词识别性能好

由字构词

把分词问题转化为确定句中每个字在词中位置问题

每个字在词中可能的位置可以分为以下三种
词首B（日本占领了东三省）
词中M（游泳比赛菲尔普斯独占鳌头）
词尾E（中国队抢占了风头）
特征选择
设H是预定义条件的集合，T是一组可选标注集，条件随机场的特征函数定义为f(h,t)=1（在h和t满足观察条前提下）

特征所涉及的语言学知识列表
字的上下文知识
形态词知识：处理重叠词、离合词、前后缀
仿词知识：2000年
成语/惯用语知识
普通词词典知识
歧义知识
新词知识/用户词典
新词的全局化知识

分词过程

优点
理论基础扎实
解码速度快
分词精度高
新词识别能力强
所需学习素材少

弱点
训练速度慢
需要高配置的机器训练
具体方法的描述可以搜索：中文分词一席谈.ppt来了解详情。

本文出自 “专注自然语言技术” 博客，请务必保留此出处http://langiner.blog.51cto.com/1989264/380563

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hello9050 CSDN认证博客专家 CSDN认证企业博客

码龄13年

2: 原创

111万+: 周排名

47万+: 总排名

11万+: 访问

: 等级

1205: 积分

9: 粉丝

6: 获赞

3: 评论

16: 收藏

私信

关注

热门文章

分类专栏

中文分词 8篇
hadoop
并行计算 11篇
openSSL 6篇
VTK 1篇

最新评论

中科院中文分词C语言接口调用示例
qingchunyixing: 请问你用的是vs2008 还是哪个软件呀？
14款中文分词开源软件
speedoops: 据说mmseg很好，准确度很高。自己小工具中用了下盘古分词，简单实用。
“应用程序配置不正确，程序无法启动” 解决办法（vc2008 sp1）
JG_jiangguo: 项目中碰到发布debug版本 exe和dll放在不同的目录下, 这样是不是都要复制依赖文件复制后运行出错：另外，能不能通过添加系统环境变量的方法实现呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。