新手入门之精品爬取照片

最新推荐文章于 2024-04-05 14:08:36 发布

Syyyyyyyyyyyyyyyy

最新推荐文章于 2024-04-05 14:08:36 发布

阅读量521

点赞数

文章标签： http 爬虫网络协议

本文链接：https://blog.csdn.net/m0_63456301/article/details/121559863

版权

本文是新手入门级别的爬虫教程，作者通过学习B站视频，分享了如何使用http和网络协议来爬取网页上的照片。代码虽然还有优化空间，但已能实现爬取367页数据的功能，由于采用单线程，运行速度较慢。

摘要由CSDN通过智能技术生成

需要用到的模块：

import os  # 对文件进行操作
import parsel  # 数据解析模块
import requests  # 发送网络请求

这是我们需要用到的三个库

安装方式我就不提了  我想大家玩这个应该都会都懂

我自己也是个刚刚开始学习的小白

多亏B站大佬们的视频，代码中有很多可以优化的地方大佬们请勿喷

本代码仅供学习参考。

话不多说直接开干

首先附上今天要爬取的url
https://www.jdlingyu.com/tuji/


response = requests.get(f'https://www.jdlingyu.com/tuji/
print(response.text)
    # 1. 发送网络请求 向相册列表页
    # <Response [200]>: 对方服务器告诉你请求成功了
    # 获取网页源代码

 这个网站比较基础 不需要UA伪装也可以直接访问  比较适合小白练手

 这里用到parsel库的Selector方法进行数据解析

data_html = response.text
selector = parsel.Selector(data_html)
url_list = selector.css('.post-info > h2 > a::attr(href)').getall()

for detail_url in url_list:
  # 4. 发送网络请求 向相册页面
   try:
       response_1 = requests.get(detail_url)
       # 5. 获取数据 网页源代码
       data_html_1 = response_1.te