现在网络以及移动互联网发展迅速,大家花费越来越多的时间逛一些网站浏览帖子,比如贴吧、论坛等。博主喜欢打篮球,爱看NBA,因此常常行迹于虎扑论坛,看一些精彩赛事以及比较好的帖子。本文主要通过对虎扑某一版的帖子进行统一收集,并总结这些帖子的相关信息。
1.选择需要操作的版块
本文主要针对NBA版块进行信息的批量收集,https://bbs.hupu.com/all-nba这是该版块的网址。
根据上图所示,本文需要收集的是这些帖子的标题,来源,url,发表时间,以及作者姓名。其中从上图网页在哪个只能知道标题与来源,并从源码中获取url,然后打开对应url页面,获取发表时间与作者信息,并将这些信息整理。
2.信息筛选、编写正则表达式、爬虫
进入上述论坛页面,点击F12,点击标题对应的源代码如下图所示:
根据上图可以定义标题匹配规则, pattern3='<a href=".*?" target="_blank" title="(.*?)">'
url匹配规则:pattern1='<a href="/(.*?)" target="_blank" title=".*?">'
上图可以获得该帖子的来源,匹配规则可以定义为: pattern2='<a href="/.+?" target="_blank">(.*?)</a>'
对于时间和作者,则可以根据获取的url,进入相应页面获取。
根据上图可定义作者的匹配规则:pattern='<a class="u" target="_bla