我的爬虫实战(一)之抓取优美图库
羞羞图片…
文章目录
前言
提示:这里可以添加本文要记录的大概内容:
emmm,这是一篇小白学了一段时间后开始用博客记录学习过程的文章。记录从现在开始。
对于爬虫来说,可能大部分人都不陌生,爬虫爬虫,爬的好吃国家饭嘛,啊呸,不能这样想。大家平常点开网页看见一些好看的图片,是不是有下载的冲动,可是如果一个一个点击图片下载,费时又费力,那么这个时候,就轮到我们今天的主角登场了——自动爬取下载网络图片。
提示:以下是本篇文章正文内容,下面案例可供参考
一、爬虫是什么?
网络爬虫就是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序,简单来说:爬虫是用事先写好的程序去抓取网络上的数据,这样的程序叫爬虫
二、使用步骤
1.引入库
代码如下(示例):
import requests
from bs4 import BeautifulSoup
import time
这里的time库是为了防止我们的请求被服务端终端而导入的,作用呢就是让程序慢点爬,emmm是这样的吧。如果不是请大神指正。
2.选择网站
我们这里选择的优美图库,咳咳绝对不是你们想的眼那样,我是单纯记录学习过程,吧。
之后呢,要想爬取数据,首先查看网页源代码如果源代码里有我们想要获取的内容,我们就可以直接进行爬取,如果没有的话,就得使用fiddler等抓包工具了,对于这个抓包工具,我会在后面的系列中进行更新啦。
然后我们点击网页空白处点击查看源代码:
在这里检查过之后,确认网页源代码里有我们想要的内容,那么ok,我们进行爬虫脚本编写。
2.读入数据
代码如下(示例):
获取网页内容,并运用Beautiful对文本进行解析。
url = 'https://www.umei.cc/meinvtupian/xingganmeinv/'
resp = requests.get(url=url)
resp.encoding = 'utf-8'
#解析数据
main_page = BeautifulSoup(resp.text, 'html.parser')
alist = main_page.find('ul', class_="pic-list after").find_all('img')
获取下载链接,保存图片到文件。
#获取下载链接
for i in alist:
time.sleep(1)
herf = (i.get('data-src'))
# print(herf)
#请求图片,保存文件
img_resp = requests.get(url=herf)
img_name = herf.split("/")[-1]
print(img_name)
with open('img/' + img_name, mode='wb') as fp:
fp.write(img_resp.content)
print('over')
有人可能会对一下代码产生疑问,我来解答一下:
img_resp = requests.get(url=herf)
img_name = herf.split("/")[-1]
print(img_name)
with open('img/' + img_name, mode='wb') as fp:
fp.write(img_resp.content)
这里呢,我们对图片的url发起请求获得的内容呢就会是一堆字节,这些字节就组成了图片,我们想要保存的话就非常简单,我们只需要保存图片的字节,就相当于保存了图片。
全代码
import requests
from bs4 import BeautifulSoup
import time
url = 'https://www.umei.cc/meinvtupian/xingganmeinv/'
resp = requests.get(url=url)
resp.encoding = 'utf-8'
#解析数据
main_page = BeautifulSoup(resp.text, 'html.parser')
alist = main_page.find('ul', class_="pic-list after").find_all('img')
#获取下载链接
for i in alist:
time.sleep(1)
herf = (i.get('data-src'))
# print(herf)
#请求图片,保存文件
img_resp = requests.get(url=herf)
img_name = herf.split("/")[-1]
print(img_name)
with open('img/' + img_name, mode='wb') as fp:
fp.write(img_resp.content)
print('over')
4.效果展示
这里我们是新建的一个img文件夹用于存放下载来的图片,现在我们点开文件夹,就可以看到图片啦。
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单的介绍了爬取网站图片的方法,大伙子学会了没有,学会了就等晚上就,诶不对,学会了我们就可以学以致用啦~