自然语言处理第三期

最新推荐文章于 2021-01-11 19:06:36 发布

渣渣胤的编程之旅

最新推荐文章于 2021-01-11 19:06:36 发布

阅读量204

点赞数

本文链接：https://blog.csdn.net/weixin_40624556/article/details/89217669

版权

                    
                        
                    
                    基本文本处理技能
 1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；
 正向最大匹配法：定义一个最大长度，从前向后选取最大长度的字符串，然后与词典的词进行匹配，如果匹配到了就停止，如果没匹配到就去除最后面的一个数，继续匹配，直至匹配到词典的词或剩一个字为止，就为分词；对句子剩下的字符串坐相同处理，最后得到分词。
 例如：句子 = “我今天在学习”，最大长度N=5
 第一轮：
 第一次：”我今天在学”，扫描5字词典，无
 第二次：“我今天在”，扫描4字词典，无
 第三次：“我今天”，扫描3字词典，无
 第四次：“我今”，扫描2字词典，无
 第五次：“我”，切分
 第二轮：
 第一次：”今天在学习”，扫描5字词典，无
 第二次：“今天在学”，扫描4字词典，无
 第三次：“今天在”，扫描3字词典，无
 第四次：“今天”，扫描2字词典，有，切分
 …
 最后分词结果：我/今天/在/学习
 逆向最大匹配法：与正向最大匹配法相反，该方法是从后向前选取最大字符串，然后匹配。
 例如：句子 = “我今天在学习”，最大长度N=5
 第一轮：
 第一次：”今天在学习”，扫描5字词典，无

                

最低0.47元/天解锁文章

渣渣胤的编程之旅

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理第三期

基本文本处理技能1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；正向最大匹配法：定义一个最大长度，从前向后选取最大长度的字符串，然后与词典的词进行匹配，如果匹配到了就停止，如果没匹配到就去除最后面的一个数，继续匹配，直至匹配到词典的词或剩一个字为止，就为分词；对句子剩下的字符串坐相同处理，最后得到分词。例如：句子 = “我今天在学习”，最大长度N=5第一轮：第一次：”我...
复制链接

扫一扫