本篇讲如何爬取百度贴吧,并翻页。
一、方法
按照爬取一个网页的步骤分为:
-
确定目标网址(url)
-
发送网络请求,(模拟正常用户),得到对应的响应数据
-
提取出特定的数据
-
保存,本地,入库
这里因为要爬取多个百度贴吧页面,所以使用for循环就可以使用url参数的规律变化,实现翻页。
在python中,本次爬取需要用到requests库
安装指令:
程序第一步,先引入requests库:
设置程序入口pycharm快捷指令main:
然后设置要爬取的贴吧内容以及要爬取的页数:
因为要爬取输入的相应页数,所以要使用到for循环:
然后找到目标网址,这里有两种方式
第一种就是百度贴吧的域名网址,但是使用域名网址