死党暗恋校花失败，我爬了这个网站发给他分分钟治愈，男人的快乐往往很简单（每天一遍，忘却初恋）

2401_84009300

于 2024-04-11 01:57:32 发布

阅读量396

点赞数 4

分类专栏：程序员文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84009300/article/details/137618532

版权

程序员专栏收录该内容

203 篇文章

订阅专栏

本文介绍如何使用Python和requests、Parsel库进行网站爬取，获取页面详情和图片，同时分享了一个旨在帮助Python开发者系统学习前端开发的全套资料，包括零基础至进阶的内容和实战项目。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了让他忘掉校花，走出阴影，我于是决定把我新收藏的网站分享给他，顺便分享给大家，纯纯的交流技术，大家备好纸巾，不对，备好纸笔😂

在这里插入图片描述

效果如下

在这里插入图片描述

在这里插入图片描述

爬取目标

网址：（实在是不敢放，满满的求生欲，官方大佬手下留情）

在这里插入图片描述兄弟们啊，不要怪我，不打码不行啊，我是来交流技术的。

要用的工具

软件：

python 3.8

pycharm 2021专业版

模块：

requests

parsel

没有模块 pip 安装模块即可

流程解析

我们首先就是先进入到这个网址，向网站发送网络请求。

然后去拿到它的网页源代码数据，右键点击，查看他的网页源代码。

我们访问网站拿到的数据就是它。

在这里插入图片描述后续的步骤我就不截图了，可以看我视频讲解。

获取到数据后，我们要去解析数据，筛选我们想要的内容，相册详情页地址，标题等等。

然后向详情页发送请求并解析数据，再向图片链接发送请求，获取图片二进制数据，最后保存图片。

详细步骤我都在视频里讲了，大家可以在这里看视频讲解，还有多线程版本

实现代码

import requests

import parsel

import re

import os

for page in range(1, 11):

print(f’正在爬取第{page}页’)

1.向目标网站发送请求（get，post）

response = requests.get(f’https://www.网站不提供，想用来实践技术的话可以私我拿.com/page/{page}')

2. 获取数据（网页源代码）

data_html = response.text

3. 解析网页（re正则表达式，css选择器，xpath，bs4，json）提取每一个详情页的链接与标题

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

上前端开发知识点，真正体系化！**

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。