N-Gram 分词算法 Python 实现

最新推荐文章于 2024-07-12 10:45:15 发布

刘坏坏

最新推荐文章于 2024-07-12 10:45:15 发布

阅读量1.3w

点赞数 2

文章标签：算法字符串自然语言处理

本文链接：https://blog.csdn.net/qq_34307082/article/details/106431277

版权

本文介绍了N-Gram算法在自然语言处理中的应用，包括文本过滤、滑动取词过程。通过Python实现，该算法用于评估句子合理性及字符串差异度。程序主要包含文本过滤和滑动取词两个步骤。

摘要由CSDN通过智能技术生成

概述

N-Gram 算法是一种单词级别的窗口取词算法，N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。

N-Gram 算法具体过程：

过滤掉文本数据中的标点符号和其他特殊字符；
对所有单词执行小写转换，并删除单词之间的空格、换行符等标志位；
使用长度为 N 的窗口对文本内容执行字符级滑动取词，将结果存入有序列表。

如下图所示
在这里插入图片描述
程序分为两步：文本过滤、滑动取词

文本过滤

def text_filter(text: str) -> str:
    """
    文本过滤器：过滤掉文本数据中的标点符号和其他特殊字符
    :param text:

最低0.47元/天解锁文章

刘坏坏

关注

2
点赞
踩
60

收藏

觉得还不错? 一键收藏
0
评论
N-Gram 分词算法 Python 实现

概述N-Gram 算法是一种单词级别的窗口取词算法，N-Gram（有时也称为N元模型）是自然语言处理中一个非常重要的概念，通常在NLP中，人们基于一定的语料库，可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面，N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。N-Gram 算法具体过程：过滤掉文本数据中的标点符号和其他特殊字符；对所有单词执行小写转换，并删除单词之间的空格、换行符等标志位；使用长度为 N 的窗口对文本内容执行字符级
复制链接

扫一扫