![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬取微博内容(学习用)
文章平均质量分 94
python分析微博【微博辟谣】发布的历史内容,并记录
郭Albert
命是弱者的借口,运是强者的谦辞
展开
-
Python爬虫【零】问题介绍 -- 对“微博辟谣”账号的历史微博进行数据采集
问题笔者曾经遇到一个学习性质的爬虫任务:爬取‘微博辟谣’账号的历史微博。具体要求如下:采集范围: 1. ‘微博辟谣’账号原创或转发的历史全部贴子。 2. 需要踢除微博月度工作报告。剔除的样例如下: 采集格式:采集方框中的如下文本信息。分为4列。每行一条记录。 1. 若为该账号原创帖,则采集账号本身、文本内容、发布时间、转发数。 2. 若为转发的贴子,需要采集包含:原贴发布账号、原贴文本内容、原贴发布时间、原贴转发数。原贴提取内容如下红框转发贴提取内容:...原创 2021-03-20 16:47:34 · 826 阅读 · 0 评论 -
Python爬虫【一】爬取移动版“微博辟谣”账号内容(API接口)
专题系列导引前言 本文我们针对3G4G移动版微博网站(URL: https://m.weibo.cn),爬取"微博辟谣"的数据一. 爬取思路 首先分析P移动版微博的网站设计、Html页面结构、数据请求和加载方式。发现PC网页版特点如下:页面时通过访问API接口,再渲染页面的方式来加载数据的。因此我们可以不管页面展示如何,而去直接调用API接口来提取数据接口中通过page=?的方式来实现不同页面数据的提取;新版页面没有page参数,换用了since_id=?的入参,其实也是相同效果:每次A原创 2021-03-20 16:48:35 · 3076 阅读 · 2 评论 -
Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
背景笔者曾经遇到一个学习性质的爬虫任务:爬取‘微博辟谣’账号的历史微博。具体要求如下:采集范围: 1. ‘微博辟谣’账号原创或转发的历史全部贴子。 2. 需要踢除微博月度工作报告。剔除的样例如下: 采集格式:采集方框中的如下文本信息。分为4列。每行一条记录。 1. 若为该账号原创帖,则采集账号本身、文本内容、发布时间、转发数。 2. 若为转发的贴子,需要采集包含:原贴发布账号、原贴文本内容、原贴发布时间、原贴转发数。原贴提取内容如下红框转发贴提取内容:一. 爬虫思路首先分原创 2021-03-20 16:49:35 · 1862 阅读 · 4 评论 -
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引前言 前面专题文章【二】中,我们编写了微博PC网页版单线程的爬虫方式。但执行速度较慢,需要约两个小时才能处理完成。 此文我们对之前的程序略作改造,让其实现在每个页面内爬取45条数据时,进行多线程异步爬取,从而缩短每个页面的爬取时间,进而缩短整个爬取时间。一.改造多线程 对于整个设计流程,之前CrawlHandle串行方法内的逻辑没有问题,仍然是执行五个步骤。前面的启动driver、登录认证,后面的关闭driver、写入数据,都没有变化。1. 入参改造 唯一需要变化的是步骤原创 2021-03-20 16:50:35 · 774 阅读 · 0 评论 -
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)
专题系列导引前言 前面专题文章【三】中,我们编写了微博PC网页版单页面内多线程爬取内容的爬虫方式。但执行速度仍然不太可观。因为翻页、下拉也是耗时高的操作,但为单线程执行。尤其是网路不理想的情形下,加载页面格外耗时。 因此我们设想是否可以异步启动多个driver驱动,数量为n;同时将微博辟谣240页数据分割为n份的piece,每个driver驱动负责分析爬取一部分piece,最后再汇总,写入表格 此文我们仍然是基于【二】【三】中的项目进行改造,让其实现selenium多线程异步处理多页面的功能原创 2021-03-20 16:51:21 · 1191 阅读 · 1 评论