html a4页面样式_定位+提取:基于BeautifulSoup的新浪微博搜索页面爬虫

本文将展示使用python的BeautifulSoup构建对新浪微博搜索页面的爬虫。本文代码下载:xiaotanzhuying/crawlers

以搜索北京大学账号的关键词话题“#大美北大#”为例,我们来看新浪微博搜索页面的样式:

URL:https://s.weibo.com/weibo?q=%23%E5%A4%A7%E7%BE%8E%E5%8C%97%E5%A4%A7%23&vip=1&haspic=1&Refer=g

647813c658d8901b6db02b16a51c112e.png

f047dd971aff7378a191b67d28f36e19.png

为了改善搜索结果质量,这里启用高级搜索模式设置了“认证用户”和“含图片”的过滤规则。可以看到URL中,搜索关键词“#大美北大#”经url编码后传递给了参数q,而“认证用户”和“含图片”分别传递给了参数vip和haspic,最后一个参数Refer指的是展示“综合”的搜索结果。页面中,搜索到的微博展示在左侧,右侧有热搜榜等信息,页面底部将搜索结果分成了若干页。每一条微博主要爬取这几项关键信息:发布账号、话题及话题地址、正文、at对象及地址、配图内容、转发数量、评论数量、赞数量、发布时间、来自XXX。另外还需要记录爬取数据的时间,因此构建类如下:

class 

搜索到的每一条微博在页面的HTML中的格式:

发布账号、话题、正文及图片对应的代码块:

32c2e0107728db5f0335c816a91f5a28.png

发布时间及来源对应的代码块:

d33b610acf61a91cb95fe6d4e7463a3c.png

转发、评论及赞数量对应的代码块:

cfe0c7edb1fa6f91f824c3cf7f54e2fb.png

BeautifulSoup是一个流行的html分析库。借助BeautifulSoup,我们可以定位到所有符合要求的代码块,并进行进一步的格式化提取信息。以话题内容为例,html中的代码块为

<

可以看到,标签的名称为‘a’,包含属性href和target,并且文本内容中首尾皆为‘#’。再次检查全部html中,符合该条件的全部都是所需的话题内容。因此可以编写如下的定位话题的代码:

def 

提取话题及话题地址信息的代码如下:

def 

需要说明的是,提取标签的所有文本内容可以使用更加简便的get_text()方法,直接返回字符串格式的文本内容。

其他信息的提取遵循相同的“定位——提取”过程。

提高定位准确度的几条tips:

1、检查节点的类型如Tag、ResultSet

2、检查parent、previous_sibling、next_sibling等父亲、兄弟节点的信息

3、经BeautifulSoup处理过后,标签的属性attrs中的值可能是列表,例子可见于函数is_weibo_content

如下是全部代码:

# -*- coding: utf-8 -*-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值