初用正则表达式爬取图片

原创 2015年11月17日 21:18:04
<pre name="code" class="python">#coding:utf-8
#导入正则模块
import re
import urllib
#获取网页
def getHtml(url):
    #打开该网页
    page=urllib.urlopen(url)
    #读取网页的源代码
    html=page.read()
    #print html 测试一下是否成功读取
    return html
#获取图片
def getImg(html):
    #用正则表达式进行匹配
    reg='src="(.*?)\.jpg" data-tb-lazyload'
    imgre=re.compile(reg)
    #查找所有
    imglist=re.findall(imgre,html)
    x=0
    #遍历图片地址并保存
    for imgurl in imglist:
        x+=1
        urllib.urlretrieve(imgurl,'%s.jpg' % x)

url='http://tieba.baidu.com/p/3246506701'
#调用函数
html=getHtml(url)
getImg(html)


小某说:匹配正则的时候,.*?没有加括号,没有进行分组,然后就会报错
IOError: [Errno url error] unknown url type: 'src=%22http'
这里有具体讲关于圆括号的作用哦!

http://blog.csdn.net/hanjieson/article/details/8885206


还有关于爬取下来的图片为啥不能看的原因,一直显示图片已经损坏或者是怎么样的,原因是我们在源代码中看到的根本就不是图片原本的链接,具体的解决方法什么的在我的另一篇博客里面有哈,虽然是转发的吧!

 



版权声明:本文为博主原创文章,未经博主允许不得转载。

通过正则从内容中匹配图片,并找到src值

例子: string result = ""; string str = "测试文字测试文字测试文字测试文字"; Regex...
  • wei_jie_zhang
  • wei_jie_zhang
  • 2016年11月08日 10:56
  • 2459

正则表达式筛选出jpg、png的图片url

private static void reg() { // TODO Auto-generated method stub String line = "[\"http://yjj-i...
  • qq_24919679
  • qq_24919679
  • 2017年01月13日 14:16
  • 4609

正则匹配文章中的图片

preg_match_all("//", $content, $arr); 放到一个函数里。打印试试
  • xiaoya13144111
  • xiaoya13144111
  • 2016年03月10日 17:22
  • 334

python内置的urllib模块不支持https协议的解决办法

Django站点使用django_cas接入SSO(单点登录系统),配置完成后登录,抛出“urlopen error unknown url type: https”异常。寻根朔源发现是python内...
  • zyz511919766
  • zyz511919766
  • 2014年05月05日 14:46
  • 35898

python实例1--用正则表达式爬取静态网页上的图片

本来使用的是python3配合pycharm,但是编码问题一直有问题, 最开始时是: TypeError: cannot use a string pattern on a bytes-like ob...
  • kkevinyang
  • kkevinyang
  • 2016年02月12日 12:18
  • 3979

Python爬虫——爬取网站的图片

爬虫这东西最早出现在我大学计算机网络的课程上面,我们当时的老师人很好,期末不笔试,他说这东西笔试没什么用,对于一个年纪比较大的老师来讲,能提出这种方式,实在难得。当时在考虑做一个与网络有关的东西好,第...
  • iaiti
  • iaiti
  • 2015年11月19日 15:04
  • 25050

[python学习] 简单爬取图片网站图库中图片

最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取游讯网图库中的图片。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站...
  • Eastmount
  • Eastmount
  • 2015年03月20日 17:01
  • 9754

获取html 中的所有图片 正则表达式

$(".container").html().replace(/]*src=['"]([^'"]+)[^>]*>/gi, function (match, capture) { console...
  • ISaiSai
  • ISaiSai
  • 2016年04月21日 20:15
  • 1383

python3.5——爬虫实现批量下载图片(正则表达式法和BeautifulSoup第三方库法)

先来例程: 正则表达式法:(不推荐) # -*- coding: utf-8 -*- """ Created on Thu Jun 1 16:22:10 2017 @author: qiu...
  • sqiu_11
  • sqiu_11
  • 2017年06月04日 23:15
  • 1824

Python爬虫学习笔记一:简单网页图片抓取

利用python抓取网络图片的步骤是: 1、根据给定的网址获取网页源代码 2、利用正则表达式把源代码中的图片地址过滤出来 3、根据过滤出来的图片地址下载网络图片 以下是比较简单的一个抓取某一个百度...
  • feimengjuan
  • feimengjuan
  • 2016年04月15日 18:23
  • 8610
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:初用正则表达式爬取图片
举报原因:
原因补充:

(最多只允许输入30个字)