利用Kali爬取小姐姐图片

Python的强大之处在于网络爬虫。本文为大家分享一个简单的爬虫实例。爬取图片站中的小姐姐。

环境

  • Python3.8

  • BeautifulSoup 依赖

在kali中以上环境都是默认安装好的。我们无需安装,如果你是其他环境,缺少的依赖可以pip命令安装即可。如

pip3 install BeautifulSoup   

使用

将下面代码保存为*.py文件。在kali中直接运行即可!

import os   import re   import time   from urllib import request   from bs4 import BeautifulSoup      def get_last_page(text):   return int(re.findall('[^/$]\d*', re.split('/', text)[-1])[0])           def html_parse(url, headers):   time.sleep(3)   resp = request.Request(url=url, headers=headers)   res = request.urlopen(resp)   html = res.read().decode("utf-8")   soup = BeautifulSoup(html, "html.parser")   return soup      headers = {       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59'   }       url = "https://www.2meinv.com/"   for p in range(1, 5 + 1):#这里我只爬了前5页   next_url = url + "index-" + str(p) + ".html"   soup = html_parse(next_url, headers)   link_node = soup.findAll('div', attrs={"class": "dl-name"})   for a in link_node: #下面是图片存放的路劲   path = "/root/image/2meinv/"     href = a.find('a', attrs={'target': '_blank'}).get('href')   no = re.findall('[^-$][\d]', href)[1] + re.findall('[^-$][\d]', href)[2]     first_url = url + "/article-" + no + ".html"     title = a.find('a', attrs={'target': '_blank'}).text     path = path + title + "/"     soup = html_parse(href, headers)     count = soup.find('div', attrs={'class': 'des'}).find('h1').text     last_page = get_last_page(count)           for i in range(1, last_page + 1):               next_url = url + "/article-" + no + "-" + str(i) + ".html"               soup = html_parse(next_url, headers)               image_url = soup.find('img')['src']               image_name = image_url.split("/")[-1]               fileName = path + image_name               if not os.path.exists(path):                   os.makedirs(path)               if os.path.exists(fileName):                   continue               request.urlretrieve(image_url, filename=fileName)               request.urlcleanup()           print(title, "下载完成了")      

效果

在这里插入图片描述

在这里插入图片描述

注意

这里仅仅是做了一个python爬虫的小demo。请勿非法恶意爬虫!因为没有采用多线程,爬取速度相对较慢。

CSDN大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网络安全技术库

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值