新闻文本词云图

本文介绍了如何根据用户浏览的新闻创建词云图,通过分析用户兴趣,匹配其他相关新闻,提升用户粘性和网站流量。数据集来源于搜狗2012年的全网新闻,涉及数据清洗、分词和词云图的生成过程。
摘要由CSDN通过智能技术生成

案例背景

当前,很多网站提供新闻列表,可以令用户方便的查阅自己感兴趣的信息。

然而,用户浏览新闻,也许仅仅只是随便看到一条。网站的资源非常丰富,可能收藏很多用户感兴趣的其他新闻,但是受限于用户对新闻了解的广泛度,很多新闻用户未能发现,网站也因此错误了很多吸引用户的机会。

可以根据用户浏览过的新闻,创建词云图,查看用户浏览的关键信息,进而可以根据浏览的新闻,与网站现有的其他新闻进行匹配,自动推断出用户最可能感兴趣的新闻,从而达到吸引顾客,防止顾客流失,增加网站流量等目的。

数据集描述

数据集采用搜狗2012年6月-7月全网新闻数据。该数据集为xml文件格式类型。格式如下:

<doc>
<url>新闻链接</url>
<docno>新闻编号</docno>
<contenttitle>新闻标题</contenttitle>
<content>新闻内容</content>
</doc>

导入相关的库

import numpy as np
import pandas as pd
import re
import jieba
import wordcloud
import scipy.misc

 原始数据的处理

数据集是一个xml类型的文件,不能使用pandas直接进行加载。
先读取原始的数据集,使用正则表达式提取<contenttitle&g

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值