中文信息处理

最新推荐文章于 2024-05-21 17:01:20 发布

zuo_zy

最新推荐文章于 2024-05-21 17:01:20 发布

阅读量179

点赞数

文章标签：中文分词自然语言处理语言模型

本文链接：https://blog.csdn.net/m0_56273467/article/details/127454395

版权

中文自动分词

◼ 词语边界歧义处理
◼ 如何识别未登录词
◼ 如何低廉地获取语言学知识
◼ 实时性应用中的效率问题

简单的模式匹配

正向最大匹配（Forward Maximum Matching method, FMM）

◼ 1.设自动分词词典中最长词条所含汉字个数为I；
◼ 2.取被处理材料当前字符串序数中的I个字作为匹配字段，查找分词词典。若词典中有这样的一个I字词，则匹配成功，匹配字段作为一个词被切分出来，转6；
◼ 3.如果词典中找不到这样的一个I字词，则匹配失败；
◼ 4.匹配字段去掉最后一个汉字，I--；
◼ 5.重复2-4，直至切分成功为止；
◼ 6.I重新赋初值，转2，直到切分出所有词为止。

分析

◼ “市场/中国/有/企业/才能/发展/”
◼ 对交叉歧义和组合歧义没有什么好的解决办法
◼ 错误切分率为1／169
◼ 往往不单独使用，而是与其它方法配合使用

逆向最大匹配分词（Backward Maximum Matching method, BMM）

◼ 分词过程与FMM方法相同，不过是从句子(或文章)末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字
◼ “市场/中/国有/企业/才能/发展/
◼ 实验表明：逆向最大匹配法比正向最大匹配法更有效，错误切分率为1／245

双向匹配法（Bi-direction Matching method, BM法）

◼ 比较FMM法与BMM法的切分结果，从而决定正确的切分
◼ 可以识别出分词中的交叉歧义

基于规则的方法：最少分词算法

最少匹配算法(Fewest Words Matching,FWM) )

◼ 分段
◼ 逐段计算最短路径(Dijkstra算法)
◼ 得到若干分词结果
◼ 统计排歧
发展\中\国家
发展\中国\家
◼ 算法复杂性与FMM相当

基于统计的方法：统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词

基于统计的词网格分词

◼ 第一步是候选词网格构造：利用词典匹配，列举输入句子所有可能的切分词语，并以词网格
形式保存
◼ 第二步计算词网格中的每一条路径的权值，权值通过计算图中每一个节点（每一个词）的一
元统计概率和节点之间的二元统计概率的相关信息而得到
◼ 根据图搜索算法在图中找到一条权值最大的路径，作为最后的分词结果

分析

◼ 可利用不同的统计语言模型计算最优路径
◼ 具有比较高的分词正确率
◼ 算法时间、空间复杂性较高