用python爬虫获取图片,会中文就能学会 <最详细>

爬取图片第一步就是打开网站进行查看源码

注意爬取的东西不可以拿来牟利或恶意传播到网上

第一步打开python

点击python最下方的 Pyhton Packages 下载模块
请添加图片描述

第一个模块 requests

请添加图片描述

第二个模块 beautifulsoup4

在这里插入图片描述

第三个模块 selenium

在这里插入图片描述

创建一个python file

在这里插入图片描述
导入模块

import requests
from bs4 import BeautifulSoup
import selenium

定义一个方法提取网站的内容

def craw_html(url):
  resp = requests.get(url)
  resp.encoding='gbk'   #如果爬取出乱码就改一下编码
  print(resp.status_code) #如果输出结果为200 可以知道该网站可以直接爬取,没有任何的防爬措施
  html = resp.text
  return html
def parse_and_download(html):
    #解析图片的地址
  soup = BeautifulSoup(html, "html.parser")
  imgs = soup.find_all("img")
  for img in imgs:   #循环得到全部img
    src = img["src"]
    if "/uploads/" not in src:
         continue
    src = f"https://pic.netbian.com{src}"
    print(src)
        # 首先得到图片的本地文件的地址
    filename = os.path.basename(src)
    with open(f"美女图片/{filename}", "wb") as f:
        resp_img = requests.get(src)
        f.write(resp_img.content)
urls = ["https://pic.netbian.com/4kdongman/"]+[   #循环从第一页到123页
    f:= f"https://pic.netbian.com/4kdongman/index_{i}.html"
    for i in range(2,123)
]

for url in urls :
    print("正在爬取",url)
    html = craw_html(url)
    parse_and_download(html)

点击开始爬取

在这里插入图片描述

爬取成功了

如果报错请看一下代码的格式,或文件夹位置问题
在这里插入图片描述
我们再来看一下文件夹中是是否存储了图片.

2000多张图片已经存储到了文件下

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值