python怎么爬取豆瓣首页_python爬取豆瓣首页热门栏目详细流程

最新推荐文章于 2024-05-08 22:58:13 发布

weixin_39788382

最新推荐文章于 2024-05-08 22:58:13 发布

阅读量993

点赞数

文章标签： python怎么爬取豆瓣首页

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39788382/article/details/111455836

版权

记录一下爬取豆瓣热门专栏的经过，通过这篇文章，你能学会requests，HTMLParser，json的基本使用，以及爬取网页内容的基本思路。

使用模块

1，获取豆瓣首页代码：首先我们需要访问豆瓣页面，获取首页的源码。这里推荐使用第三方库：requests，相比python内置的 urllib 模块，requests使用起来更简单，功能更全面

2，对获取的代码进行解析：对于解析html代码，已经有很多功能强大的框架能使用，如Scrapy，PySpider，Beautiful Soup等，这里我们只是学习下爬虫的基本使用，所以内建的 HTMLParser 足够使用了

3，对获取的数据进行处理： json

思路分析

既然我们需要的只是热门专栏模块的数据，那么我们需要一个标志来告诉我们：下面的代码就是专栏模块了，准备获取数据。同样我们需要知道当前

读取的是图片、标题还是栏目类别，以此将数据储存到相应的字段中。总的来说，我们最起码应该通过代码来实现以下几点：

1，获取网页源码

2，通过自定义方法解析html

3，通过标志位判断当前数据是否是我们需要的数据

4，通过分析代码结构决定将要储存的数据结构

5，将数据按照特定格式进行本地储存

可以看到，我们需要爬取的数据都在 ul.time-list 这个代码块里，那么我们的标志位就是：当开始标签为 ul并且具有类名 time-list时，我们就要获取数据了，当结束标签为 ul 时，停止解析，继续分析代码结构，每个 li 里面包含了对应数据里面的详情页跳转链接，图片地址，标题以及专栏类别，那么我们的数据结构到这里也就很清楚了：一个 li 块对应一条数据，每条数据由四个字段组成：

详情页跳转链接 href --> 这里我们考虑了一下，还是通过第二个a标签来获取，它具有统一的类名title，同时我们还能获取标题title，

图片地址 imgUrl --> 通过每个li代码块里面唯一img标签的src属性可以轻松获取，

标题 title --> 通过 a.title获取，

专栏类别 type --> 唯一的 span 标签获取

tip：像上面我们选取数据的标志位一样，img的alt可以获取标题，a标签的文本也可以获取标题，两个a标签都能获取跳转链接不管是爬虫还是平时其他的开发，我们经常会遇到，同一个需求有多种方法实现，这时候我们就需要思考一下哪一种方法更简洁，冷静分析后的编码不一定最优秀，但自己肯定印象深刻(说远了，回归正题)。

编码实现

通过上面的准备工作，我们已经确定了需要引入的模块，解析事件触发标志位，需要获取的数据，储存的数据结构，可以正式开始编码了:

requests是第三方库，需要另外安装，其他的是内置模块，直接引入即可:

1 importrequests2 from html.parser importHTMLParser3 from html

最低0.47元/天解锁文章

weixin_39788382

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python怎么爬取豆瓣首页_python爬取豆瓣首页热门栏目详细流程

记录一下爬取豆瓣热门专栏的经过，通过这篇文章，你能学会requests，HTMLParser，json的基本使用，以及爬取网页内容的基本思路。使用模块1，获取豆瓣首页代码：首先我们需要访问豆瓣页面，获取首页的源码。这里推荐使用第三方库：requests，相比python内置的 urllib 模块，requests使用起来更简单，功能更全面2，对获取的代码进行解析：对于解析html代码，已经有很多功...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。