本文将展示使用python的BeautifulSoup构建对新浪微博搜索页面的爬虫。本文代码下载:xiaotanzhuying/crawlers
以搜索北京大学账号的关键词话题“#大美北大#”为例,我们来看新浪微博搜索页面的样式:
URL:https://s.weibo.com/weibo?q=%23%E5%A4%A7%E7%BE%8E%E5%8C%97%E5%A4%A7%23&vip=1&haspic=1&Refer=g
为了改善搜索结果质量,这里启用高级搜索模式设置了“认证用户”和“含图片”的过滤规则。可以看到URL中,搜索关键词“#大美北大#”经url编码后传递给了参数q,而“认证用户”和“含图片”分别传递给了参数vip和haspic,最后一个参数Refer指的是展示“综合”的搜索结果。页面中,搜索到的微博展示在左侧,右侧有热搜榜等信息,页面底部将搜索结果分成了若干页。每一条微博主要爬取这几项关键信息:发布账号、话题及话题地址、正文、at对象及地址、配图内容、转发数量、评论数量、赞数量、发布时间、来自XXX。另外还需要记录爬取数据的时间,因此构建类如下:
class
搜索到的每一条微博在页面的HTML中的格式:
发布账号、话题、正文及图片对应的代码块:
发布时间及来源对应的代码块:
转发、评论及赞数量对应的代码块:
BeautifulSoup是一个流行的html分析库。借助BeautifulSoup,我们可以定位到所有符合要求的代码块,并进行进一步的格式化提取信息。以话题内容为例,html中的代码块为
<
可以看到,标签的名称为‘a’,包含属性href和target,并且文本内容中首尾皆为‘#’。再次检查全部html中,符合该条件的全部都是所需的话题内容。因此可以编写如下的定位话题的代码:
def
提取话题及话题地址信息的代码如下:
def
需要说明的是,提取标签的所有文本内容可以使用更加简便的get_text()方法,直接返回字符串格式的文本内容。
其他信息的提取遵循相同的“定位——提取”过程。
提高定位准确度的几条tips:
1、检查节点的类型如Tag、ResultSet
2、检查parent、previous_sibling、next_sibling等父亲、兄弟节点的信息
3、经BeautifulSoup处理过后,标签的属性attrs中的值可能是列表,例子可见于函数is_weibo_content
如下是全部代码:
# -*- coding: utf-8 -*-