Python爬虫爬下IT之家图片

#coding:utf-8
import urllib
import re

url = "http://www.ithome.com/html/it/221721.htm"
html = urllib.urlopen(url)
content = html.read()
html.close()

# 通过正则匹配图片特征,并获取图片链接
img_tag = re.compile(r'data-original="(.+?\.jpg)"')
img_links = re.findall(img_tag, content)
print img_links

# 下载图片 img_counter为图片计数器(文件名)
img_counter = 0
for img_link in img_links:
    img_name = '%s.jpg' % img_counter
    urllib.urlretrieve(img_link, "D://dataset//%s" %img_name)
    img_counter += 1



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值