新闻文本词云图

最新推荐文章于 2024-07-20 07:02:27 发布

Kyrie_tim

最新推荐文章于 2024-07-20 07:02:27 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/Kyrie_tim/article/details/92867796

版权

本文介绍了如何根据用户浏览的新闻创建词云图，通过分析用户兴趣，匹配其他相关新闻，提升用户粘性和网站流量。数据集来源于搜狗2012年的全网新闻，涉及数据清洗、分词和词云图的生成过程。

摘要由CSDN通过智能技术生成

当前，很多网站提供新闻列表，可以令用户方便的查阅自己感兴趣的信息。

然而，用户浏览新闻，也许仅仅只是随便看到一条。网站的资源非常丰富，可能收藏很多用户感兴趣的其他新闻，但是受限于用户对新闻了解的广泛度，很多新闻用户未能发现，网站也因此错误了很多吸引用户的机会。

可以根据用户浏览过的新闻，创建词云图，查看用户浏览的关键信息，进而可以根据浏览的新闻，与网站现有的其他新闻进行匹配，自动推断出用户最可能感兴趣的新闻，从而达到吸引顾客，防止顾客流失，增加网站流量等目的。

数据集采用搜狗2012年6月-7月全网新闻数据。该数据集为xml文件格式类型。格式如下：

<doc>
<url>新闻链接</url>
<docno>新闻编号</docno>
<contenttitle>新闻标题</contenttitle>
<content>新闻内容</content>
</doc>

import numpy as np
import pandas as pd
import re
import jieba
import wordcloud
import scipy.misc

数据集是一个xml类型的文件，不能使用pandas直接进行加载。
先读取原始的数据集，使用正则表达式提取<contenttitle&g

关注