记录小白学习之路
自然语言处理的基本预处理(分词,停用词记载,获得高频词语)
-- coding: utf-8 --
#jieba分词示例
#strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
#对文本进行预处理 停用词记载 分词 词性标注 以及统计高频词汇
# -*- coding: utf-8 -*-
#jieba分词示例
#strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
#对文本进行预处理 停用词记载 分词 词性标注 以及统计高频词汇
import jieba
import jieba.posseg as psg
from gensim import corpora,models
from jieba import analyse
import functools
import math
# 停用词表加载方法
def get_stopword_list():
# 停用词表存储路径,每一行为一个词,按行读取进行加载
# 进行编码转换确保匹配准确率
stop_word_path = './停用词.txt'
stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path,encoding='utf-8').read