新手入门之精品爬取照片

本文是新手入门级别的爬虫教程,作者通过学习B站视频,分享了如何使用http和网络协议来爬取网页上的照片。代码虽然还有优化空间,但已能实现爬取367页数据的功能,由于采用单线程,运行速度较慢。
摘要由CSDN通过智能技术生成

需要用到的模块:

import os  # 对文件进行操作
import parsel  # 数据解析模块
import requests  # 发送网络请求
这是我们需要用到的三个库

安装方式我就不提了  我想大家玩这个应该都会都懂

我自己也是个刚刚开始学习的小白

多亏B站大佬们的视频,代码中有很多可以优化的地方  大佬们请勿喷

本代码仅供学习 参考。

话不多说 直接开干

首先附上今天要爬取的url
https://www.jdlingyu.com/tuji/


response = requests.get(f'https://www.jdlingyu.com/tuji/
print(response.text)
    # 1. 发送网络请求 向相册列表页
    # <Response [200]>: 对方服务器告诉你请求成功了
    # 获取网页源代码

 这个网站比较基础 不需要UA伪装也可以直接访问  比较适合小白练手
 这里用到parsel库的Selector方法进行数据解析

data_html = response.text
selector = parsel.Selector(data_html)
url_list = selector.css('.post-info > h2 > a::attr(href)').getall()
for detail_url in url_list:
  # 4. 发送网络请求 向相册页面
   try:
       response_1 = requests.get(detail_url)
       # 5. 获取数据 网页源代码
       data_html_1 = response_1.te
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值