中文分词的python实现-基于FMM算法

VIP文章 orlandowww

于 2016-09-28 19:44:05 发布

阅读量5.4k

点赞数 3

分类专栏：自然语言处理NLP 文章标签：分词 python FMM

本文链接：https://blog.csdn.net/orlandowww/article/details/52693225

版权

正向最大匹配算法（FMM）

正向最大匹配算法（FMM）是一种基于词典的分词方法，思想很简单就是从左向右扫描寻找词的最大匹配，比如词典中同时含有“钓鱼”和“钓鱼岛”，那“钓鱼岛属于中国”就会被分词成“钓鱼岛/属于/中国”

过程

限定词的最大长度（例如5）
从最大的长度开始在词库中进行匹配，直到匹配成功
更新起点的位置继续上一步骤直到全部完成

实验

代码

# -*- coding: utf-8 -*-
# 中文正向最大匹配（FMM）分词

import sys
reload(sys)     #动态重新加载sys模块
sys.setdefaultencoding('utf8')


word_dict = ['新华网', '东京', '记者', '吴谷丰',

最低0.47元/天解锁文章

orlandowww

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
中文分词的python实现-基于FMM算法

正向最大匹配算法（FMM）正向最大匹配算法（FMM）是一种基于词典的分词方法，思想很简单就是从左向右扫描寻找词的最大匹配，比如词典中同时含有“钓鱼”和“钓鱼岛”，那“钓鱼岛属于中国”就会被分词成“钓鱼岛/属于/中国”
复制链接

扫一扫

专栏目录