python爬虫实战:requests爬取妹子图片

利用第三方库requests爬取

本来要爬帅哥图的,想想还是算了,怕被人怀疑取向,糟糕!
这里的requests.get就代表get请求,跟urlopen不设定data参数差不多
但是requests用起来更加方便,还有很多强大功能有空去研究一下,先占坑

from bs4 import BeautifulSoup
from urllib.request import urlretrieve
import requests
import os
import time

head = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 "
                      "(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
urlbase = "http://www.shuaia.net"
pages_url = [urlbase]

for i in range(2, 5):
    pages_url.append(urlbase + "/index_%d.html" % i)

pictures_url = []
for url in pages_url:
    req = requests.get(url, head)
    req.encoding = "utf-8"
    html = req.text
    soup = BeautifulSoup(html, 'lxml')
    target = soup.find_all("a", class_="item-img")
    for picture in target:
        name = picture.img.get("alt")
        if "花" in name or "女" in name:
            picture_url = picture.get("href")
            final_link = name + "=" + picture_url
            pictures_url.append(final_link)

for eachurl in pictures_url:
    name, target_url = eachurl.split("=")
    filename = name + ".jpg"
    pic_req = requests.get(target_url, head)
    pic_req.encoding = "utf-8"
    pic_html = pic_req.text
    soup = BeautifulSoup(pic_html, 'lxml')
    div1 = soup.find("div", class_="wr-single-content-list")
    try:
        pic_url = urlbase + div1.img["src"]
        if "Driver_images" not in os.listdir("F:\\"):
            os.makedirs(r"F:\Driver_images")
        urlretrieve(pic_url, "F:\\Driver_images\\" + filename)
        print(name)
    except AttributeError:
        print("无效链接!")
    # time.sleep(1)
    # 小网站不用延时
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是一个简单的 Python 爬虫教程,可以批量指定网站的图片: 首先,我们需要安装 requests 和 BeautifulSoup 这两个库。可以通过以下命令进行安装: ``` pip install requests pip install beautifulsoup4 ``` 接下来,我们需要编写代码。以下是一个示例代码,可以指定网站的图片并保存到本地: ```python import requests from bs4 import BeautifulSoup import os # 图片的网站 url = "https://www.example.com/" # 请求头,模拟浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} # 发送请求,获网页内容 response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, "html.parser") # 创建保存图片的文件夹 if not os.path.exists("images"): os.makedirs("images") # 遍历所有的图片标签,获图片链接并保存到本地 for img in soup.find_all("img"): img_url = img.get("src") if img_url.startswith("http"): response = requests.get(img_url) with open("images/" + os.path.basename(img_url), "wb") as file: file.write(response.content) print("已保存图片:", img_url) ``` 在上述代码中,我们首先定义了要的网站的 URL。然后,我们使用 requests 库发送一个 GET 请求,获网页的 HTML 内容。接着,我们使用 BeautifulSoup 库对 HTML 进行解析,获所有的图片标签。最后,我们使用 requests 库再次发送 GET 请求,获图片的二进制数据,并保存到本地的 images 文件夹中。 注意,这里我们使用了一个 if 判断来过滤掉非 HTTP 开头的图片链接,以避免出现下载错误的情况。 为了更好的用户体验,代码中还加入了一些注释,方便大家理解。 希望这个简单的 Python 爬虫教程能对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值