python爬虫爬图片用的正则表达式_python实现简单爬虫--爬图片

最新推荐文章于 2022-11-18 17:48:02 发布

weixin_39830020

最新推荐文章于 2022-11-18 17:48:02 发布

阅读量77

点赞数

文章标签： python爬虫爬图片用的正则表达式

首先有两个功能需求：

第一：获取到要爬的页面html内容；

第二：使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python

#encoding:utf-8

import urllib

import re

def getHtml(url):

'''获取到url的html内容'''

page = urllib.urlopen(url)

html = page.read()

return html

html1 = getHtml('http://p_w_picpath.baidu.com/search/index?tn=baidup_w_picpath&ct=201326592&lm=-1&cl=2&ie=gbk&word=%C3%C0%C5%AE&ala=1&fr=ala&alatpl=cover&pos=0')

# print html1

# print re.findall(r'"objURL":"(.+?\.jpg)"',html1)

def downloadImg(html1):

'''下载页面里的jpg图片'''

reg = r'"objURL":"(.+?\.jpg)"'

#预编译正则表达式提高运行速度

imgreg = re.compile(reg)

urllist = re.findall(imgreg,html1)

num = 0

#for循环遍历下载每个图片

for i in urllist:

urllib.urlretrieve(i,'%s.jpg' % num)

num+=1

downloadImg(html1)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39830020

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬图片用的正则表达式_python实现简单爬虫--爬图片

首先有两个功能需求：第一：获取到要爬的页面html内容；第二：使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python#encoding:utf-8import urllibimport redef getHtml(url):'''获取到url的html内容'''page = urllib.urlopen(url)html = page.read()return html...
复制链接

扫一扫

python爬虫爬图片用的正则表达式_使用python爬虫怎么对图片进行爬取

weixin_28358083的博客

02-04

396

使用python爬虫怎么对图片进行爬取发布时间：2021-01-18 16:21:24来源：亿速云阅读：61作者：Leah使用python爬虫怎么对图片进行爬取？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。1、spider原理spider就是定义爬取的动作及分析网站的地方。以初始的URL**初始化Request**，并...

python爬虫——爬取网页中的图片（正则表达式）

weixin_45890771的博客

01-26

1549

爬取网站：站长之家网址：辞旧迎新，字体超市携各品牌字体一起来送虎年祝福啦！ # import requests import re import os if __name__ == '__main__': # 创建一个文件夹，用于保存所有的图片 if not os.path.exists('./hunian'): os.mkdir('./hunian') headers = { 'User-Agent':'Mozilla/5.0 (Windows NT .

参与评论您还未登录，请先登录后发表或查看评论

正则表达式笔记

student241的博客

10-13

206

1.正则表达式 python是自1.5开始引进re模块进行处理正则的。我先把正则的匹配规则总结一下，再总结re模块相应的方法。 1.1匹配规则语法解释表达式成功匹配对象一般字符匹配自身相对应的字符abcabc.匹配除换行符(\n)以外的任意字符a.cabc\转义字符，可以改变原字符的意思a.ca.c\d匹配数字:0~9\dabc1abc\w匹配单词字符,a~z;A~Z;0~9\w\w\w...

python爬取网页图片实战_Python之多线程爬虫抓取网页图片的实战代码

weixin_39892447的博客

11-27

180

本篇文章主要介绍了Python之多线程爬虫抓取网页图片的示例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧写到这里顺便给大家推荐一个资源很全的python学习免非解答.裙：七衣衣九七七巴而五（数字的谐音）转换下可以找到了，这里有资深程序员分享以前学习心得，学习笔记，还有一线企业的工作经验，且给大家精心整理一份python零基础到项目实战的资料，每天给大家讲解p...

【Python爬虫】爬虫示例---爬取必应美图壁纸（正则表达式）

m0_62376348的博客

12-30

817

我是新手小白，其中有许多不足之处望大家谅解。引入time是因为，程序里面有多次requests get请求，再加上循环，如果下载量大，服务器和本机IP会受到影响。前两天爬取58同城时，访问次数太多，IP被禁了。 import requests import re import time home_url='https://bing.ioliu.cn/?p=' add_str='https://bing.ioliu.cn/' headers={ "User-Agent": "Mozilla/5.

初学python爬虫，记录一下学习过程，正则表达式提取图片网址

12-23

对于初学者来说，学习如何构建一个简单的Python爬虫是十分有趣的。本篇将详细介绍如何利用正则表达式（Regular Expression）从网页中提取图片链接，以实现基础的网络爬虫功能。首先，我们导入所需的库。Python中的...

python爬虫实践_京东商品信息（正则表达式）

12-27

看标题，结果生成excel表格注：使用时，header需要更改为自己浏览器中的，附加查找方法有些运行不了可能是有些库没有安装，在命令行里，打开python的scripts文件夹下使用pip install 库的名字，即可安装

Python爬虫教程之利用正则表达式匹配网页内容

01-19

Python爬虫，除了使用大家广为使用的scrapy架构外，还有很多包能够实现一些简单的爬虫，如BeautifulSoup、Urllib、requests，在使用这些包时，有的网络因为比较复杂，比较难以找到自己想要的代码，在这个时候，如果...

python零基础学习篇数据爬虫技巧-4正则表达式.zip

05-01

在Python爬虫的学习过程中，熟练运用正则表达式可以极大地提升数据处理能力。通过不断地练习和实际应用，你将能够自如地应对各种复杂的数据抓取场景。记住，正则表达式虽然强大，但也有其局限性，对于过于复杂的结构...

Python爬虫 Re库与正则表达式的细节解析

01-20

文章目录Python爬虫（二十三）—— Re库与正则表达式的细节解析 ——1. 麻烦的反斜杠2. 零宽断言 1. 麻烦的反斜杠上一篇中我们已经提到了，正则表达式使用 ‘’ 字符来使得一些普通的字符拥有特殊的能力（例如 \d...

Python网络爬虫之正则表达式

qq_43776408的博客

11-17

229

#语法 ''' . 表示任何单个字符 [] 字符集，给出单个字符的取值范围，比如[a-z]，表示字母a到z [^] 非字符集，对单个字符给出排除范围 * 前一个字符0次或者无限次扩展 + 前一个字符的1次或者无限次扩展 ? 前一个字符的0次或者1次扩展 | 左右表达式任意一个 abc|bcd 表示abc，bcd {m} 扩展前一个m次 ab{2} 表示abb,记住只是扩展前一个，不是一堆 {m,n...

python抓取图片_python抓取网页图片示例(python爬虫)

weixin_39614276的博客

11-21

#-*- encoding: utf-8 -*-'''Created on 2014-4-24@author: Leon Wong'''import urllib2import urllibimport reimport timeimport osimport uuid#获取二级页面urldef findUrl2(html):re1 = r'http://tuchong.com/\d+/\d+/|...

python正则表达式实战——获取图片

爱吃饼干的小白鼠的博客

11-18

2155

我最近自学了一段时间爬虫，感觉挺有意思的，逛网页的时候，无意间发现了wallhaven的一个壁纸网站，我就萌生了一个想法，看能不能爬下来，说干就干。下面就按照爬虫的思路，一步一步的进行。

爬虫一：用正则表达式爬取图片

12-12

5235

爬虫流程发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。解析内容得到的内容可能是html数据，可以使用正则表达式、第三方解析库如Beautifu...

Python爬虫——爬取网站的图片

热门推荐

iaiti的专栏

11-19

4万+

爬虫这东西最早出现在我大学计算机网络的课程上面，我们当时的老师人很好，期末不笔试，他说这东西笔试没什么用，对于一个年纪比较大的老师来讲，能提出这种方式，实在难得。当时在考虑做一个与网络有关的东西好，第一个想到的就是爬虫。想想也没想过用Java写过这种东西，所以当时是一般看一本爬虫的书一边敲代码，现在想起来有很多东西是没有想明白的——我当时爬的是刘末鹏的博客，把全部文章用分类爬了下来，在本地可以...

爬虫爬取网络图片（正则表达详细版）

liaojsgtcg的博客

09-28

1114

python爬虫-正则表达式识别jpg和JPG

duzishivip的博客

09-11

4559

获取百度图片举例这是一个百度图片的图片地址，我们想要保存这张图片需要一个正则来截取我们需要的内容 [{"ObjURL":"http:\/\/img0.imgtn.bdimg.com\/it\/u=1349097740,3761226168&fm=214&gp=0.jpg", 我需要从上边的内容里截取出以下内容 http:\/\/img0.imgtn.bdimg.com\/it...

用正则表达式抓取网页图片

weixin_41795137的博客

03-16

4509

步骤：1.先把某个网页源码手动保存到本地一个文本文件；（暂时，以后想想怎么更加智能化）2.利用正则表达式匹配html中的img 标签，并从分组中提取出链接并存为list；3.下载图片到制定文件夹。import reimport ioimport urllib.requeststr=[]try: f = open(r'F:\\Python\\test.txt', 'r') str=f.r...

Python 正则表达式爬取网站图片

CNdota_never_die的博客

04-22

2862

使用正则表达式和 requests 模块前要知识所需模块学习路径 re re模块知识总结 requests request模块学习路径通过 re 和 requests 模块便可完成简单的图片爬取功能。行动开始我们以素材8网站为例，对素材8首页存在的图片进行爬取。 # 首先导入我们所需要用到的包 import re import requests # get 是request里的一个方法它的意思是:从指定的资源请求数据。 ret = requests.get("https

python 爬虫正则表达式_Python爬虫正则表达式常用符号和方法