需要用到的模块:
import os # 对文件进行操作
import parsel # 数据解析模块
import requests # 发送网络请求
这是我们需要用到的三个库 安装方式我就不提了 我想大家玩这个应该都会都懂
我自己也是个刚刚开始学习的小白
多亏B站大佬们的视频,代码中有很多可以优化的地方 大佬们请勿喷
本代码仅供学习 参考。
话不多说 直接开干
首先附上今天要爬取的url
https://www.jdlingyu.com/tuji/
response = requests.get(f'https://www.jdlingyu.com/tuji/
print(response.text)
# 1. 发送网络请求 向相册列表页
# <Response [200]>: 对方服务器告诉你请求成功了
# 获取网页源代码
这个网站比较基础 不需要UA伪装也可以直接访问 比较适合小白练手
这里用到parsel库的Selector方法进行数据解析
data_html = response.text
selector = parsel.Selector(data_html)
url_list = selector.css('.post-info > h2 > a::attr(href)').getall()
for detail_url in url_list:
# 4. 发送网络请求 向相册页面
try:
response_1 = requests.get(detail_url)
# 5. 获取数据 网页源代码
data_html_1 = response_1.te