案例背景
当前,很多网站提供新闻列表,可以令用户方便的查阅自己感兴趣的信息。
然而,用户浏览新闻,也许仅仅只是随便看到一条。网站的资源非常丰富,可能收藏很多用户感兴趣的其他新闻,但是受限于用户对新闻了解的广泛度,很多新闻用户未能发现,网站也因此错误了很多吸引用户的机会。
可以根据用户浏览过的新闻,创建词云图,查看用户浏览的关键信息,进而可以根据浏览的新闻,与网站现有的其他新闻进行匹配,自动推断出用户最可能感兴趣的新闻,从而达到吸引顾客,防止顾客流失,增加网站流量等目的。
数据集描述
数据集采用搜狗2012年6月-7月全网新闻数据。该数据集为xml文件格式类型。格式如下:
<doc>
<url>新闻链接</url>
<docno>新闻编号</docno>
<contenttitle>新闻标题</contenttitle>
<content>新闻内容</content>
</doc>
导入相关的库
import numpy as np
import pandas as pd
import re
import jieba
import wordcloud
import scipy.misc
原始数据的处理
数据集是一个xml类型的文件,不能使用pandas直接进行加载。
先读取原始的数据集,使用正则表达式提取<contenttitle&g