目录
前言
本次写的爬虫程序是爬取网站上的图片,所用的网站请详见代码。
函数介绍
主要是通过对网站上内容进行解析提取,从而获取到图片所对应的下载链接,从而实现批量下载,其他网站图片爬取方法类似。
库函数介绍
import re#解析接收到的网页源码
import requests#发送网页请求
引入库函数,没有的小伙伴可以进行下载。
下载方法1:windows下>cmd>输入:pip install requests/pip install re
下载方法2:pycharm>setting>project:文档名称
函数1
def http_s(baseurl):
for i in range(0,30):#爬取第一到第30页,可更改
url=baseurl+str(i)
# print(url)
getphoto(url)#解析函数中传入网址,开始解析爬取图片
解析函数中传入网址,开始解析爬取图片
函数2
def getphoto(url):
#headers封装
headers={
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
}
#网站访问
response=requests.get(url,headers=headers)
# print(response.text)
html_re=response.text
#解析数据
link=re.compile(r'<img fifu-featured="1" width="520" src="(.*?)"',re.S)
link_w=re.findall(link,html_re)
#向图片链接进行访问
for img in link_w:
#图片名字
img_name=img.split('/')[-1]#将网页进行拆分,拿出图片名
# print(img_name)
img_data=requests.get(img).content#获取数据
# print(img_data)
#保存数据
with open(f'img/{img_name}',mode='wb') as f:#注意需要手动新建一个img文件夹,不然会出现报错
f.write(img_data)
print("正在爬取",img_name)
解析函数,进行网页解析,图片保存。
主函数
#主函数调用
if __import__(__name__):
main()
完整代码
import re#解析接收到的网页源码
import requests#发送网页请求
def main():
baseurl = "https://www.kanxiaojiejie.com/page/"
http_s(baseurl)
#用来生成网站地址
def http_s(baseurl):
for i in range(0,30):#爬取第一到第30页,可更改
url=baseurl+str(i)
# print(url)
getphoto(url)#解析函数中传入网址,开始解析爬取图片
#解析函数,进行网页解析
def getphoto(url):
#headers封装
headers={
"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44"
}
#网站访问
response=requests.get(url,headers=headers)
# print(response.text)
html_re=response.text
#解析数据
link=re.compile(r'<img fifu-featured="1" width="520" src="(.*?)"',re.S)
link_w=re.findall(link,html_re)
#向图片链接进行访问
for img in link_w:
#图片名字
img_name=img.split('/')[-1]#将网页进行拆分,拿出图片名
# print(img_name)
img_data=requests.get(img).content#获取数据
# print(img_data)
#保存数据
with open(f'img/{img_name}',mode='wb') as f:#注意需要手动新建一个img文件夹,不然会出现报错
f.write(img_data)
print("正在爬取",img_name)
#主函数调用
if __import__(__name__):
main()
函数功能介绍
总结
本次的小爬虫主要是爬取的网站上公开的图片,进行下载保存,喜欢的小伙伴点个赞吧!