使用Python制作词云

油豆皮

已于 2022-07-11 09:06:51 修改

阅读量613

点赞数

文章标签：大数据 python

于 2022-06-28 16:37:22 首次发布

本文链接：https://blog.csdn.net/m0_55674689/article/details/125504635

版权

设计思想

本次实验的整体设计思想分为四个部分

使用网络爬虫将网上的文章进行爬取下来存储到english.txt文件中
使用jieba分词将english.txt文件中的英文文章进行分词
进行分词后在进行统计词频并以字典的方式存储
将统计词频后的数据导入到词云中进行词云制作

实现过程

在进行爬取网页数据的过程中我使用的是Urllib库

使用下方函数进行爬取

使用下方函数将爬取的数据保存到english.txt文本文档中

在进行文本分词的时候，我使用的是jieba库

使用下方函数进行分词

在进行统计词频的时候，我使用Count计数器

使用下方函数进行统计词频，并以字典的形式保存。

我们使用一个for循环来查找出现频率最高的十五个单词

同样使用for循环来查找长度大于6并包含6的单词的个数

使用wordcloud包进行制作词云

制作词云，并导入统计词频后的文本

最后保存词云到同名目录下即可

结果

输出结果：

词云图：

源码

# author: #

# 输入库
import jieba
import wordcloud
from collections import Counter
from urllib.request import urlopen
textPage=urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")
fileObject = open('english.txt', 'wb+')  # "wb+"是指 按二进制的方式打开

for ip in textPage:

    fileObject.write(ip)

# fileObject.write('\n')

fileObject.close()

print(textPage.read())
from pathlib import Path
# 读取后关闭txt文件
file = open("english.txt", "r", encoding="utf-8")  # 文件格式是utf-8，文件名是xxx.txt
t = file.read()
file.close()

# jieba分词
ls = jieba.lcut(t)
txt = " ".join(ls)
count1 = Counter(ls)
most_count1=count1.most_common()
words_list1 = []
#统计出现频率最高的十五个单词
for i in most_count1:

    if len(i[0]) >=2 and len(i[0]) <=100:

        words_list1.append(i)
print("出现频率最高的十五个单词：")
print(words_list1[:5])
print(words_list1[5:10])
print(words_list1[10:15])
num = 0
for i in most_count1:
    if len(i[0]) >=6 :
        num+= 1
print("长度为6个以上（含6个）字母的单词个数:",num,"个")

# words = jieba.lcut(text_content)
# 用Counter方法计算单词频率数



 #  设置词云图
w = wordcloud.WordCloud(
    font_path="C:/Windows/Fonts/STXINGKA.TTF",  # 词云字体
    width=1000,  # 图片宽度
    height=800,  # 图片高度
    background_color="white")  # 图片背景颜色

# 将文字导入词云
w.generate(txt)

# 保存词云图
w.to_file("wordcloud.png")