利用爬虫爬取简单页码类网页数据

最新推荐文章于 2021-12-15 18:13:00 发布

在技术海洋里潜泳

最新推荐文章于 2021-12-15 18:13:00 发布

阅读量1.2k

点赞数 3

分类专栏：爬虫基础笔记文章标签： python

本文链接：https://blog.csdn.net/qq_46273905/article/details/105396834

版权

利用爬虫爬取简单页码类网页数据

本人作为一名爬虫初学者，会每天分享自己的爬虫心路历程，希望能够帮助到有需要的小伙伴们。第一次写博客，有许多规矩不太了解，若有冒犯，请多多谅解，同时也希望大家多多指正本文中的不合理之处，谢谢大家！

一、前期准备

对象选择：本次爬取选择具有代表性的页码类网页——糗事百科，本次只爬取前四页的标题、笑话文字等内容。
浏览器使用：chrome
模块使用：requests、BeautifulSoup
确定URL:观察网页url规律，寻找每一页url的内在规律。如下，可知url规律为page/数字/。

https://www.qiushibaike.com/text/
https://www.qiushibaike.com/text/page/2/
https://www.qiushibaike.com/text/page/3/
https://www.qiushibaike.com/text/page/4/

模块定义：

import requests #爬虫库
from bs4 import<

最低0.47元/天解锁文章

在技术海洋里潜泳

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
利用爬虫爬取简单页码类网页数据

利用爬虫爬取简单页码类网页数据本人作为一名爬虫初学者，会每天分享自己的爬虫心路历程，希望能够帮助到有需要的小伙伴们。第一次写博客，有许多规矩不太了解，若有冒犯，请多多谅解，同时也希望大家多多指正本文中的不合理之处，谢谢大家！一、前期准备对象选择：本次爬取选择具有代表性的页码类网页——糗事百科，本次只爬取前四页的标题、笑话文字等内容。浏览器使用：chrome模块使用：requests、B...
复制链接

扫一扫