自定义中文分词

最新推荐文章于 2024-04-28 15:07:01 发布

凡眼观世界

最新推荐文章于 2024-04-28 15:07:01 发布

阅读量636

点赞数

分类专栏： NLP 文章标签： nlp 自然语言处理算法机器学习 python

本文链接：https://blog.csdn.net/havorld/article/details/104728811

版权

文章目录

分词

分词

常用的分词方法有：

基于规则的分词：正向匹配、逆向匹配、双向匹配
基于统计的分词：基于语言模型、基于序列模型
混合分词：综合多种分词

基于规则的分词

基于规则的分词是通过维护字典的方法，在切分语句时将语句中的字符与词典进行逐一匹配去划分词语，是一种比较机械的分词方式

my_dict = ["江大桥", "研究", "生命科学", "南京市", "研究生", "大桥", "科学", "课题", "南京市长", "生命", "长江大桥", "南京", "市长"]
max_length = max([len(word) for word in my_dict])

前向匹配 MM (maximum match)

def word_cut_mm(sentence):
    """正向匹配"""

    sentence = sentence.strip()
    word_length = len(sentence)
    cut_word_list = []
    while word_length > 0:
        max_cut_length = min(max_length, word_length)
        sub_sentence = sentence[:max_cut_length]
        while max_cut_length > 0:
            if sub_sentence in my_dict or max_cut_length == 1:
                cut_word_list.append(sub_sentence)
                break
            else:
                max_cut_length = max_cut_length - 1
                sub_sentence = sentence[:max_cut_length]
        word_leng

最低0.47元/天解锁文章

凡眼观世界

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
自定义中文分词

分词常用的分词方法有：基于规则的分词：正向匹配、逆向匹配、双向匹配基于统计的分词：基于语言模型、基于序列模型混合分词：综合多种分词ybm的分词系统综合了语言模型和序列标注模型基于规则的分词基于规则的分词是通过维护字典的方法，在切分语句时将语句中的字符与词典进行逐一匹配去划分词语，是一种比较机械的分词方式my_dict = ["江大桥", "研究", "生命科学", "南京市",...
复制链接

扫一扫