python爬虫爬图片用的正则表达式_python实现简单爬虫--爬图片

首先有两个功能需求:

第一:获取到要爬的页面html内容;

第二:使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python

#encoding:utf-8

import urllib

import re

def getHtml(url):

'''获取到url的html内容'''

page = urllib.urlopen(url)

html = page.read()

return html

html1 = getHtml('http://p_w_picpath.baidu.com/search/index?tn=baidup_w_picpath&ct=201326592&lm=-1&cl=2&ie=gbk&word=%C3%C0%C5%AE&ala=1&fr=ala&alatpl=cover&pos=0')

# print html1

# print re.findall(r'"objURL":"(.+?\.jpg)"',html1)

def downloadImg(html1):

'''下载页面里的jpg图片'''

reg = r'"objURL":"(.+?\.jpg)"'

#预编译正则表达式提高运行速度

imgreg = re.compile(reg)

urllist = re.findall(imgreg,html1)

num = 0

#for循环遍历下载每个图片

for i in urllist:

urllib.urlretrieve(i,'%s.jpg' % num)

num+=1

downloadImg(html1)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值