python对文本进行分词_Python文本处理: 分词和词云图

‘‘‘ import os import jieba # 分词包 import numpy # numpy计算包 import codecs # codecs提供open方法指定打开的文件的语言编码,它会在读取时自动转换为内部的unicode import pandas # 统计学工具包 import matplotlib.pyplot as plt from wordcloud import WordCloud, ImageColorGenerator # 词云包 from scipy.misc import imread from time import sleep def join_txt(): # ---- 合并txt文件 # 获取目标文件夹的路径 meragefiledir = os.getcwd() + ‘\\corpus‘ # 获取当前文件夹中的文件名称列表 filenames = os.listdir(meragefiledir) # 打开当前目录下的result.txt文件,如果没有则创建 file = open(‘all_result.txt‘, ‘w‘) # 向文件中写入字符 先遍历文件名 for filename in filenames: filepath = meragefiledir + ‘\\‘ filepath = filepath + filename # 遍历单个文件,读取行数 for line in open(filepath,encoding=‘utf-8‘): file.writelines(line) file.write(‘\n‘) file.close() def make_pic(): # 导入文本,分词处理 file = codecs.open(u‘all_result.txt‘, ‘r‘) content = file.read() file.close() segment = [] segs = jieba.cut(content) # 使用jieba分词 for seg in se

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要对Excel文档的多行文本进行分词绘制词云图,需要使用Python的一些第三方库和工具。以下是一个简单的实现步骤: 1. 安装必要的库和工具:需要安装Python的第三方库pandas、jieba和wordcloud,以及Anaconda的Microsoft Visual C++ 14.0。 2. 读取Excel文档的多行文本:使用pandas库的read_excel()函数读取Excel文档的多行文本。 3. 对多行文本进行分词:使用jieba库对多行文本进行分词,并将分词结果存储到一个列表。 4. 统计频:使用Python的collections库的Counter类对分词结果进行频统计,并将结果存储到一个字典。 5. 绘制词云图:使用wordcloud库的WordCloud类绘制词云图,并设置字体、背景颜色、图片形状等参数。 以下是一个示例代码: ```python import pandas as pd import jieba from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt # 读取Excel文档的多行文本 data = pd.read_excel('data.xlsx') # 对多行文本进行分词 word_list = [] for line in data['text']: words = jieba.lcut(line) word_list += words # 统计频 word_count = Counter(word_list) # 绘制词云图 wordcloud = WordCloud(font_path='msyh.ttf', background_color='white', width=800, height=600) wordcloud.generate_from_frequencies(word_count) plt.imshow(wordcloud) plt.axis('off') plt.show() ``` 其,data.xlsx是一个包含多行文本的Excel文档,text是Excel表格的列名。在代码,我们使用了微软雅黑字体(msyh.ttf),白色背景,设置了词云图的宽度和高度。运行代码后,将会得到一个词云图

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值