自然语言处理的基本预处理（分词，停用词记载，获得高频词语）

最新推荐文章于 2022-11-27 23:35:03 发布

心情不好的狗

最新推荐文章于 2022-11-27 23:35:03 发布

阅读量941

点赞数 1

文章标签：大数据

本文链接：https://blog.csdn.net/qq_37258523/article/details/106734379

版权

本文档记录了学习自然语言处理的基础预处理步骤，包括使用jieba进行分词，处理文本的停用词，以及如何获取高频词汇。

摘要由CSDN通过智能技术生成

记录小白学习之路

自然语言处理的基本预处理（分词，停用词记载，获得高频词语）

-- coding: utf-8 --

#jieba分词示例
#strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
#对文本进行预处理停用词记载分词词性标注以及统计高频词汇

# -*- coding: utf-8 -*-
#jieba分词示例
#strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。
#对文本进行预处理 停用词记载 分词 词性标注 以及统计高频词汇
import jieba
import jieba.posseg as psg
from gensim import corpora,models
from jieba import analyse
import functools
import math


# 停用词表加载方法
def get_stopword_list():
    # 停用词表存储路径，每一行为一个词，按行读取进行加载
    # 进行编码转换确保匹配准确率
    stop_word_path = './停用词.txt'
    stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path,encoding='utf-8').read