Python自学笔记——京东商城汽车图片爬取

Andrew_jdw

于 2017-12-19 15:57:08 发布

阅读量125

点赞数

文章标签： python 笔记开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Andrew_jdw/article/details/97728526

版权

编写思路：

建立一个自定义函数，用于读取网页源代码，进行信息过滤后得到目标图片的链接，并将这些链接地址存储到一个列表中，随后遍历该列表，通过urllib.request.urlretrieve()将图片存储到本地。
通过for循环将所有的网页都爬取一遍

# -*- coding: utf-8 -*-

"""

Created on Tue Dec 19 14:32:34 2017

@author: Andrew

"""

import re

import urllib.request

def craw(url,page):

html1=urllib.request.urlopen(url).read()#读取对应网页的全部源代码

html1=str(html1)

#第一次信息过滤

pat1='<div class="car-wrap".+?<div class="page clearfix">'#用于匹配对应图片区域的正则表达式，过滤掉无用源码

result1=re.compile(pat1).findall(html1)#对正则表达式pat1进行编译，并将匹配结果赋给result1

result1=result1[0]

#第二次信息过滤

pat2='<img src="//(.*?)" .*?>'#用于匹配图片地址的正则表达式

imagelist=re.compile(pat2).findall(result1)#编译正则表达式pat2，并将结果赋给imagelist，即图片地址列表

x=1

for imageurl in imagelist:

imagename="C:/Python35/jingdongcarimg/" + str(page) + str(x) + ".jpg"#为每个图片进行命名

imageurl="http://"+imageurl#图片地址

#建立异常处理，若不能爬取某个图片，则会通过x+=1自动跳到下一个图片

try:

urllib.request.urlretrieve(imageurl,filename=imagename)#将图片保存到本地

except urllib.error.URLError as e:

if hasattr(e,"code"):

x+=1

if hasattr(e,"reason"):

x+=1

x+=1

for i in range(1,3):#爬取第一页到第二页（可根据具体需要进行设置）

url="http://car.jd.com/hmc/0_0_0-10000?ccode=201&pageIndex="+str(i)#待抓取网页地址

craw(url,i)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python自学笔记——京东商城汽车图片爬取

编写思路：建立一个自定义函数，用于读取网页源代码，进行信息过滤后得到目标图片的链接，并将这些链接地址存储到一个列表中，随后遍历该列表，通过urllib.request.urlretrieve()将图片存储到本地。通过for循环将所有的网页都爬取一遍 # -*- coding: utf-8 -*-"""Created on Tue Dec 19 14:32:34...
复制链接

扫一扫

Andrew_jdw CSDN认证博客专家 CSDN认证企业博客

码龄7年

37: 原创

4万+: 周排名

157万+: 总排名

23万+: 访问

: 等级

2398: 积分

578: 粉丝

78: 获赞

27: 评论

273: 收藏

私信

关注

热门文章

分类专栏

CV 7篇
Python学习笔记 39篇
其他 7篇
mysql 1篇
Pr
爬虫 1篇
算法 12篇
Java学习笔记 7篇
网络 2篇

最新评论

python3 面向对象实现感知器
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)提升标题与正文的相关性。
python自学笔记——糗事百科段子爬取
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加条理清晰的目录；(3)使用更多的站内链接。
Python自学笔记——京东商城汽车图片爬取
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
Python实现kNN回归算法
CSDN-Ada助手: 如何实现二分查找？
Python自学笔记5——腾讯视频评论爬取
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加条理清晰的目录。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。