利用爬虫爬取简单页码类网页数据
本人作为一名爬虫初学者,会每天分享自己的爬虫心路历程,希望能够帮助到有需要的小伙伴们。第一次写博客,有许多规矩不太了解,若有冒犯,请多多谅解,同时也希望大家多多指正本文中的不合理之处,谢谢大家!
一、前期准备
- 对象选择:本次爬取选择具有代表性的页码类网页——糗事百科,本次只爬取前四页的标题、笑话文字等内容。
- 浏览器使用:chrome
- 模块使用:requests、BeautifulSoup
- 确定URL:观察网页url规律,寻找每一页url的内在规律。如下,可知url规律为page/数字/。
https://www.qiushibaike.com/text/
https://www.qiushibaike.com/text/page/2/
https://www.qiushibaike.com/text/page/3/
https://www.qiushibaike.com/text/page/4/
- 模块定义:
import requests #爬虫库
from bs4 import<