Python 3 爬虫之批量下载字帖图片

KingLearnJava

于 2015-10-19 11:58:10 发布

阅读量1.4k

点赞数 2

分类专栏：爬虫 Python

本文链接：https://blog.csdn.net/kinglearnjava/article/details/49248009

版权

本文介绍如何使用Python 3爬虫批量下载一批字帖图片，重点包括处理网页编码GB2312，解析源码找到图片链接，并提出在下载过程中遇到错误时的处理策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

朋友想下载这62个网页中的字帖图片：http://www.yac8.com/news/11003.html

1. Chrome 「审查元素」中看到的源代码与真实的源码不同。

2. 图片网址附近源码：

<img alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》" title="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》"   border="0" src="http://www.yac8.com/upFiles/yac802/20140914064219763.jpg" />

获取源码的正则表达式：

<img\s+alt="字帖欣赏《顾仲安钢笔行书字帖-中外名人书信选》"[^>]*?src="(.+?\.jpg)"[^>]*?>

建议使用Expresso，带有语义分析功能

3. 网页编码是GB2312：

<meta http-equiv="Content-Type" content="text/html; chars