介绍
将一些关键词,以不同的 {大小,颜色,方向} 作可视化展示。
wordcloud
可以用该py库作词云生成。
完整例子
from wordcloud import WordCloud
import jieba
font_path = r'C:\Windows\Fonts\simsun.ttc' # 字体, 否则中文易乱码
mytext = "不仅产品定位区别于传统导购, 在CTR预估任务上,洋淘更是面临来访用户历史点击少,必须借助商品兴趣的迁移规律作辅助意图理解的挑战.回顾集团内外的典型工作,如DIN,贡献是依据候选doc的不同,动态地反向激活历史序列的兴趣表达;再如首猜信息流团队更先进的 BST,借助transformer将历史序列的表达也进一步升级做到了动态自适应。但二者都未曾考虑如何在语义有别的异构历史序列上作有效的兴趣建模。既然商品兴趣不等于内容兴趣, 我们就在深度网络中对 兴趣的匹配程度 而不是 兴趣的直接表达 进行建模, 并利用 匹配程度会直接影响点击意愿 这一先验设想设计了辅助loss, 鼓励模型有所侧重的去学习. 所提出的 In_CTR (即 Interest Transfer CTR model), 侧重CTR任务下异构序列的兴趣迁移挑战, 对比BST最终取得了 offline GAUC +8.72%, online uv_ctr +6.16% 的显著收益,是一个贴合业务来作算法创新的成功实践。"
word_cloud = WordCloud(font_path=font_path).generate(" ".join(jieba.lcut(mytext)))
word_cloud.to_file('./out.png')
中文处理 tips
- 需指定支持中文的字体,win系统中可填
font_path = r'C:\Windows\Fonts\simsun.ttc'
- 中文词语之间需要用空格分隔,可借用 jieba 分词。
已有词典作生成
有时我们需要在庞大的语料库中作关键词语分析,如 大数据工具 产出单词和重要程度。wordcloud 只需完成剩下的展示部分。
使用 wordcloud.wordcloud.WordCloud.generate_from_frequencies()
即可。