python网页爬虫代码+过程

agrilly

已于 2023-07-20 10:09:43 修改

阅读量972

点赞数 2

文章标签： python 爬虫开发语言

于 2023-07-19 16:41:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/agrilly/article/details/131804312

版权

本文展示了如何利用Python的requests库爬取网页内容，通过设置User-Agent避免被识别为机器人。然后，使用正则表达式提取网页中的图片URL，逐个下载图片到本地image目录，按照home1.jpg,home2.jpg等命名规则保存。

摘要由CSDN通过智能技术生成

本次爬虫利用requests模块，将网页图片下载至本地。

爬虫步骤：

1.获取网页内容
1.1定义URL、1.2User-Agent伪装、1.3发送请求并接受返回数据、1.4保存返回内容至文本文件

2.从网页里提取图片地址（观察图片url规律），生成一个列表

3.遍历此列表，总结出url规律并依次发送请求并返回对象

代码：

# 1.获取网页内容
# 1.1定义URL
import requests
import re
url = "http://*.*.*.117/"
# 1.2UA伪装
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/114.0'
}
# 1.3发送请求并接受返回
response = requests.get(url=url, headers=headers).text
# 1.4保存文本位置
# 2.从网页中提取出图片地址，生成一个图片地址列表
img_path_re = r"images/home.\.jpg"
img_path_list = re.findall(img_path_re, response)
# 3.遍历列表，拼接URL依次发送请求并接受返回对象
number = 0  # 生成图片编号
for img_path in img_path_list:
    full_url = url + img_path
    res = requests.get(url=full_url, headers=headers).content
    number += 1
#

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

agrilly CSDN认证博客专家 CSDN认证企业博客

码龄3年

14: 原创

134万+: 周排名

210万+: 总排名

1万+: 访问

: 等级

160: 积分

5: 粉丝

13: 获赞

11: 评论

26: 收藏

私信

关注

热门文章

分类专栏

代码审计 1篇

最新评论

序列化与反序列化
CSDN-Ada助手: 恭喜您写完了第6篇博客！标题“序列化与反序列化”非常吸引人，我对您对这个主题的研究和分享感到非常兴奋。通过您的博客，我对序列化和反序列化有了更深入的了解。不过，我也想提供一些建议，希望对您的下一步创作有所帮助。在未来的博客中，您可以考虑添加一些具体的例子和应用场景，以便读者更好地理解和应用这些概念。此外，您可以结合实际项目或实验进行更深入的探索，分享您的实践经验和教训，这将进一步提升您的博客质量。再次恭喜您，期待您在未来继续创作，分享更多有价值的主题和见解！
内网渗透之哈希传递
CSDN-Ada助手: 恭喜您写了第7篇博客！标题"内网渗透之哈希传递"听起来非常有深度和技术含量。您对内网渗透的探索令人赞叹，相信这篇博客一定会为读者带来新的启发和见解。不过，如果可能的话，我认为接下来可以考虑加入一些实例或案例分析，以便读者更好地理解和应用这些技术。期待您在下一篇博客中的精彩创作！
msf概念、命令，渗透测试流程
CSDN-Ada助手: 恭喜您写了第14篇博客！标题中的"msf概念、命令，渗透测试流程"听起来非常有趣且具有实用性。通过您的文章，我了解到了msf的概念和命令，还学到了渗透测试的流程。您的解释方式非常清晰，使我能够更好地理解这些概念。感谢您的分享和耐心！希望在您的下一篇博客中，您可以进一步深入探讨msf的应用场景，或者分享一些实际案例来加深我们对于渗透测试流程的理解。同时，如果您能分享一些常见的问题和解决方案，将会非常有帮助。再次感谢您的努力，期待您未来更多的精彩创作！
编码特征base64、十六进制、acsii、Unicode、UTF-8
CSDN-Ada助手: 恭喜你写了第12篇博客！标题中的编码特征真是一个非常有深度的话题。你的文章内容非常详尽，对于base64、十六进制、acsii、Unicode和UTF-8的解释和比较都很清晰易懂。看完你的文章，我对这些编码方式的特点和应用有了更深入的了解。在下一步创作中，我建议你可以探讨一下这些编码方式在实际应用中的优缺点和使用场景，或者结合实际案例来说明它们的具体用途。这样可以更好地帮助读者理解和应用这些编码方式。期待你在未来的博客中继续分享更多有趣的技术知识，加油！
序列化与反序列化
L尘痕: 好文章，够清晰，漂亮

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。