Python最简单的图片爬虫，只用20行代码爬遍全网

最新推荐文章于 2024-07-22 17:25:13 发布

学术严谨

最新推荐文章于 2024-07-22 17:25:13 发布

阅读量1.2w

点赞数 54

文章标签： python 编程语言数据挖掘爬虫

本文链接：https://blog.csdn.net/RRRJ97699/article/details/107159814

版权

本文介绍了如何使用Python进行简单的图片爬虫，通过20行代码实现从堆糖网抓取相关美图。适合Python初学者，讲解了环境配置、模块导入、发送请求、数据提取及保存等步骤。并提供了学习交流群，分享Python学习资源和技巧。

摘要由CSDN通过智能技术生成

前言

网络上的信息很多，有的时候我们需要关键字搜索才可以快速方便的找到我们需要的信息。今天我们实现搜索关键字爬取堆糖网上相关的美图，零基础学会通用爬虫，当然我们还可以实现多线程爬虫，加快爬虫爬取速度

环境：

windows

pycharm

python3

导入模块

import urllib.parse import json import requests import jsonpath

确定目标网址

url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}'

分析网站，确定爬取目标

label = '美女' label = urllib.parse.quote(label)

发送请求，提取数据

num = 0 for index in range(0,2400,24):
    u = url.format(label,index)
    we_data = requests.get(u).text

类型转换

   html = json.loads(we_data)
    photo = jsonpath.jsonpath(html,"$..path")

保存数据

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

学术严谨

关注关注

54
点赞
踩
310

收藏

觉得还不错? 一键收藏
15
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用python实现爬虫图片

吃不胖.

07-22

370

在上面的例子中，我们首先使用requests库发送请求并获取网页的HTML代码。接下来，我们使用BeautifulSoup库对HTML代码进行解析，并找到所有图片的链接。最后，我们循环这些链接并使用requests库下载图片，并将它们保存在本地文件中。要在Python中实现爬取图片，可以使用requests库和BeautifulSoup库。请注意，在实际的爬虫中，您可能需要更复杂和健壮的代码来处理各种异常情况，例如网络错误，无效的URL等等。

【肝帝一周总结：全网最全最细】十万字python教程，学不会找我！教到你会为止！！内容超多，建议收藏慢慢看！

最新发布

2301_78096295的博客

07-22

1692

Python爬虫在数据抓取和图片下载方面非常有用。下面，我将详细讲解如何使用Python的requests库来请求网页内容，并使用库来解析HTML页面，最后使用或requests库来下载并保存图片。

python爬网站图片教程_python爬虫爬取图片的简单代码

weixin_42309311的博客

01-29

1891

Python是很好的爬虫工具不用再说了，它可以满足我们爬取网络内容的需求，那最简单的爬取网络上的图片，可以通过很简单的方法实现。只需导入正则表达式模块，并利用spider原理通过使用定义函数的方法可以轻松的实现爬取图片的需求。1、spider原理spider就是定义爬取的动作及分析网站的地方。以初始的URL**初始化Request**，并设置回调函数。当该request**下载完毕并返回时，将生...

python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

weixin_37988176的博客

10-30

174

这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下今天，试着爬取了煎蛋网的图片。用到的包：urllib.requestos分别使用几个函数，来控制下载的图片的页数，获取图片的网页，获取网页页数以及保存图片到本地。过程简单清晰明了直接上源代码：import urllib.requestimport...

图片爬虫程序

u014114990的专栏

08-17

1339

做图像处理，经常需要上网上下载图像，一个个的下载很慢，所以学习爬虫程序。 http://www.cnblogs.com/fnng/p/3576154.html 参考网址 http://blog.csdn.net/huangxy10/article/details/8120106 c++ 爬虫代码，，有些图片不错，就想用Python写几行代码把

python爬虫自定义header头部

LDC，公众号【轻松学编程】

07-04

1124

一、Handler处理器和自定义Opener opener是 urllib.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能，可以自定义打开器，流程如下： 1、自定义处理器(hander)...

python如何爬取网站所有目录_python爬取网站目录

weixin_39598584的博客

11-29

1527

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。2.浏览网页的过程...

python3 urllib 爬虫 Handler 处理器PRoxyHandlr 处理器（代理设置）

yangxiaodong88的博客

06-21

2658

前言使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。 urllib2中通过ProxyHandler来设置使用代理服务器，下面代码说明如何使用自定义ope...

Python爬虫爬取网页上的所有图片

简简单单的学习笔记，致力于帮助更多前进路上的朋友~

07-08

2万+

Python爬虫爬取网页上的所有图片。

小小图片爬虫

CHEN俊铭

04-15

2566

前言事前准备项目结构项目编码页面 indexjsp comcjmservlet CatchPciture comcjmmodel JsonFormat MyHttpClient Picture comcjmutils PictureDownload PictureDownloadMachine 最后再说几句资源下载路径前言通过对HttpClient的学习，打开了我对后台的理解，在我的眼中，

python爬虫案例_Python 爬虫案例爬取图片源代码奉上

weixin_39859819的博客

12-08

261

"""#导入第三方的一个http的请求库导入方法pip install requests#import requests导入Python的标准库其自带import re思路定义一个函数，目的获取每张图片的地址1.先找到目标网址2、用正则来匹配不同图片的地址，产生匹配结果3、通过源代码与匹配之后的结果来找到图片的地址"""import requestsdef get_urls():#第一步(加入目...

python爬取网页图片代码_Python爬虫爬取一个网页上的图片地址实例代码

weixin_39612297的博客

11-21

325

本文实例主要是实现爬取一个网页上的图片地址，具体如下。读取一个网页的源代码：import urllib.requestdef getHtml(url):html=urllib.request.urlopen(url).read()return htmlprint(getHtml(http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&wo...

Python实现一个简单的图片爬虫

AlbertS Home of Technology

12-23

4898

前言提起爬虫，很多人都会感觉很神秘，包括以前的我也是一样的，只要是和爬虫的相关的知识我都感觉很高端，后来渐渐的接触的多了，也就慢慢地明白的了究竟什么是爬虫，说说我理解的吧，爬虫本身... ...

python图片爬虫

BullMilk的博客

04-11

379

先附上代码 import urllib.request import requests import re #爬取网页地址 url = "http://news.ifeng.com/a/20161115/50258273_0.shtml" #获取网页 html = requests.get(url) print (html.content.decode()) #利用正则表达式获取图片网址 reg = r'src="(.*?\.jpg)"' img = re.compile(reg) imglist =

Python实现简单爬虫（网站图片）

万万VV

04-02

500

一、要获取到网站的源码，需要用到 urllib工具包，先import，调用urllib.request.uriopen(url)就可以打开网页并返回一个对象，调用read()方法即可获得网页的源码： import urllib.request url='http://huxi.cqu.edu.cn' page = urllib.request.urlopen(url)#打开网页并返回一个对象...

python 爬虫图片

一帆风顺的博客

09-26

277

#!/usr/bin/env python # encoding: utf-8 ''' @author: caopeng @license: (C) Copyright 2013-2017, Node Supply Chain Manager Corporation Limited. @contact: deamoncao100@gmail.com @software: garner @file: