基于python的公众号课堂教学_基于Python的微信公众号数据挖掘分析

基于Python的微信公众号数据挖掘分析

华南农业大学电子工程学院 王 建 黄宁香

【期刊名称】电子世界

【年(卷),期】2019(000)011

【总页数】3

运用Python网络爬虫技术对某时事类微信公众号进行数据爬取,利用Excel和数据库MongoDB对

数据进行清洗、汇总和结构化,然后进行数据可视化处理和回归分析,挖掘出微信公众号出现高频

词条、用户浏览公众号时间及习惯等特征,并总结用户对于微信推文的兴趣点和关注度。

1 引言

微信公众号已成为人们获取信息重要平台渠道,时事类公众号以其数据流量庞大、关注群体众多、

实时性较强的优势特点给大数据挖掘带来较高的分析价值(宋维翔,贾佳,微信公众号信息质量与

用户互动行为关系研究:现代情报,2019)。目前数据分析领域的主流语言有Python、R语言

,Python是一种功能强大、面向对象的解释型计算机程序设计语言,以其效率高,代码整洁的特点

,加之其自身的标准库和丰富的第三方工具包,从而成为实现网络爬虫和数据挖掘的主要技术手段

(崔庆才,Python 3网络爬虫开发实战:人民邮电出版社,2018)。微信公众号数据挖掘一般需

要根据数据集特征采取合适的方法和工具进行挖掘,本文主要采用网络爬虫方案,开发语言采用

Python3.7,开发平台采用PyChram,数据存储采用MongoDB。

2 数据挖掘实施

2.1 网络爬虫

爬虫是指通过程序模拟浏览器访问服务器并获取服务器返回数据这样一个过程,网络爬虫通过网页

的链接地址来查找网络内容,并直接返回用户需要的数据,不需要人工操作浏览器来获取。本次爬

虫的网页解析主要有初始解析和二次解析。初始解析主要是解析初始网页列表源码,获取初始网页

中的全部推文URL;二次解析则是解析通过访问上一步的URL而得到的网页源码,提取出每条推送

的具体内容。网页解析主要利用Python的PyQuery解析库进行解析,对第三方网站

vreadtech.com整合的微信公众号文章进行爬取,对该网站的爬取流程与搜狗微信相似,通过微信

登录该网站,获取爬取权限,通过公众号名称搜索得到文章列表网页,解析网页统一资源定位符

(Uniform Resourse Locator,URL)规律,实现自动翻页,同时解析列表源码,提取文章超链接

2.2 数据存储

网络爬虫采集的数据量一般比较庞大,选择合适的数据库存储尤其重要,本课题的微信数据存储主

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值