Python爬虫:通过url获得图片

文章介绍了爬虫的三种主要类型:通用爬虫、聚焦爬虫和增量式爬虫,并详细讲解了数据解析,特别是正则、BeautifulSoup和XPath在解析中的应用。通过一个实例展示了如何使用requests库下载图片。
摘要由CSDN通过智能技术生成

目录

一、写在前面

(一)爬虫使用场景主要分以下几类:

(二)数据解析的主要几个分类:

二、步骤

数据解析

聚焦爬虫

三、实例

四、注


一、写在前面

(一)爬虫使用场景主要分以下几类

  • 通用爬虫

        很多搜素引擎(如谷歌雅虎)抓取系统重要组成部分。抓取的是一整张页面数据

  • 聚焦爬虫

        是建立在通用爬虫的基础轴上。抓取的是页面中特定的局部内容

  • 增量式爬虫

        检测网站中数据更新的情况。只会爬取网站最新更新出来的数据

(二)数据解析的主要几个分类:

  • 正则
  • beautifulsoup
  • xpath

原理概述:

        数据解析就是获取网页后,对局部数据进行提取,爬虫的大部分需求是要求使用聚焦爬虫进行爬取的,所以数据解析很重要。

        使用通用爬虫获取网页之后,在网页源码里面可以看到想要的数据在哪,比如文本常存在 li,图片常以 url 形式存在 image 标签或标签对应的属性中,此时对 url 发请求即可得到图片。建议先了解一下前端基础 html、css、js,不用专门学,看看相关文章就OK。

前端基本知识介绍_前端基础_彩色的泡沫的博客-CSDN博客

        总结:解析的局部内容数据会存储在标签或标签的属性当中

二、步骤

数据解析

1.指定标签的定位

2.标签或对应属性中存储数据的提取(解析

聚焦爬虫

1.指定URL

2.发起请求

3.获取响应数据

4.数据解析

5.持久化存储

        没有学过正则,常用的正则和相关例子在网上看一下就大概懂了,爬虫用到的提取字符的需求可以用 re.findall() 函数

三、实例

        获得逗逼拯救世界网站里的一个图片

        复制图片地址在新页面中打开,可以得到该图片,意味着对该URL发请求,就可以请求到对应图片

import requests

url='http://image.dbbqb.com/202307211552/c49633c998e125fbc1de83b74ae75388/3x9Ez '

img_data=requests.get(url=url).content

with open('./ys.jpg','wb') as fp: 
    fp.write(img_data)

四、注

        text 返回的响应数据是字符串形式json 返回的是对象类型的数据,而图片对应的,应该用 content 返回二进制数据

        with open中的 'wb' : write byte,写入二进制文件,写入时会覆盖文件,可用于下载与写入图片及视频

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

带带琪宝

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值