‘‘‘ import os import jieba # 分词包 import numpy # numpy计算包 import codecs # codecs提供open方法指定打开的文件的语言编码,它会在读取时自动转换为内部的unicode import pandas # 统计学工具包 import matplotlib.pyplot as plt from wordcloud import WordCloud, ImageColorGenerator # 词云包 from scipy.misc import imread from time import sleep def join_txt(): # ---- 合并txt文件 # 获取目标文件夹的路径 meragefiledir = os.getcwd() + ‘\\corpus‘ # 获取当前文件夹中的文件名称列表 filenames = os.listdir(meragefiledir) # 打开当前目录下的result.txt文件,如果没有则创建 file = open(‘all_result.txt‘, ‘w‘) # 向文件中写入字符 先遍历文件名 for filename in filenames: filepath = meragefiledir + ‘\\‘ filepath = filepath + filename # 遍历单个文件,读取行数 for line in open(filepath,encoding=‘utf-8‘): file.writelines(line) file.write(‘\n‘) file.close() def make_pic(): # 导入文本,分词处理 file = codecs.open(u‘all_result.txt‘, ‘r‘) content = file.read() file.close() segment = [] segs = jieba.cut(content) # 使用jieba分词 for seg in se
python对文本进行分词_Python文本处理: 分词和词云图
最新推荐文章于 2024-06-11 11:51:15 发布