在kaggle上看到一个感兴趣的数据集,学习了其中一个kernel,然后根据自己目前的实际情况改写了做云图的部分代码,分享到这里,希望能帮助到看到这篇博客的朋友,感谢大神的无私奉献。。
有兴趣的朋友可以进去看看,不多说了,下面开始:
这部分代码用到的python三方库包括:numpy pandas matplotlib wordcount jieba pillow
如果你的电脑安装了pip,那安装这些库将不是什么难事:
pip install numpy
pip install pandas
pip install matplotlib
pip install wordcount
pip install jieba
pip install pillow
如果没有pip,建议你安装一个(建议是直接安装anaconda,而不是直接装python)
准备就绪后,以下是具体代码:
import numpy as np
import pandas as pd
import matplotlib.font_manager as fm
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
from PIL import Image
# 'date','tag','headline','content'
file_name = 'data/chinese_news.csv'
text = pd.read_csv(file_name, usecols=['tag', 'headline', 'content'])
result = ""
for headline in text['headline']:
str_headline = ' '.join(jieba.cut(headline))
result += str_headline
# 字体格式,到github下载压缩包解压即可使用
# 地址:https://github.com/adobe-fonts/source-han-sans/raw/release/SubsetOTF/SourceHanSansCN.zip
font_path = "SourceHanSansCN/SourceHanSansCN-Light.otf"
prop = fm.FontProperties(fname=font_path)
# 用[0:320, 156:484, :]切割和选择图片的尺寸和显示颜色,imgs/mask.jpg为一张图片,这里用了一张京哥的
mask = np.array(Image.open("imgs/mask.jpg"))[0:320, 156:484, :]
wc = WordCloud(
font_path=font_path,
mask=mask
)
wc.generate(result)
plt.figure()
plt.imshow(wc)
# alpha为透明度,取值范围:0-1
plt.imshow(mask, alpha=0.5)
plt.axis('off')
plt.show()
运行结果: