html a4页面样式_定位+提取：基于BeautifulSoup的新浪微博搜索页面爬虫

最新推荐文章于 2024-08-02 17:01:43 发布

weixin_39815600

最新推荐文章于 2024-08-02 17:01:43 发布

阅读量160

点赞数

文章标签： html a4页面样式

本文将展示使用python的BeautifulSoup构建对新浪微博搜索页面的爬虫。本文代码下载：xiaotanzhuying/crawlers

以搜索北京大学账号的关键词话题“#大美北大#”为例，我们来看新浪微博搜索页面的样式：

URL：https://s.weibo.com/weibo?q=%23%E5%A4%A7%E7%BE%8E%E5%8C%97%E5%A4%A7%23&vip=1&haspic=1&Refer=g

为了改善搜索结果质量，这里启用高级搜索模式设置了“认证用户”和“含图片”的过滤规则。可以看到URL中，搜索关键词“#大美北大#”经url编码后传递给了参数q，而“认证用户”和“含图片”分别传递给了参数vip和haspic，最后一个参数Refer指的是展示“综合”的搜索结果。页面中，搜索到的微博展示在左侧，右侧有热搜榜等信息，页面底部将搜索结果分成了若干页。每一条微博主要爬取这几项关键信息：发布账号、话题及话题地址、正文、at对象及地址、配图内容、转发数量、评论数量、赞数量、发布时间、来自XXX。另外还需要记录爬取数据的时间，因此构建类如下：

class

搜索到的每一条微博在页面的HTML中的格式：

发布账号、话题、正文及图片对应的代码块：

发布时间及来源对应的代码块：

转发、评论及赞数量对应的代码块：

BeautifulSoup是一个流行的html分析库。借助BeautifulSoup，我们可以定位到所有符合要求的代码块，并进行进一步的格式化提取信息。以话题内容为例，html中的代码块为

可以看到，标签的名称为‘a’，包含属性href和target，并且文本内容中首尾皆为‘#’。再次检查全部html中，符合该条件的全部都是所需的话题内容。因此可以编写如下的定位话题的代码：

def

提取话题及话题地址信息的代码如下：

def

需要说明的是，提取标签的所有文本内容可以使用更加简便的get_text()方法，直接返回字符串格式的文本内容。

其他信息的提取遵循相同的“定位——提取”过程。

提高定位准确度的几条tips：

1、检查节点的类型如Tag、ResultSet

2、检查parent、previous_sibling、next_sibling等父亲、兄弟节点的信息

3、经BeautifulSoup处理过后，标签的属性attrs中的值可能是列表，例子可见于函数is_weibo_content

如下是全部代码：

# -*- coding: utf-8 -*-

weixin_39815600

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。