python爬虫简单应用-----爬取煎蛋网随手拍图片下载到本地

爬取图片比较简单,煎蛋网也没有什么反爬虫措施,在爬取的过程中发现的唯一一个反爬就是图片的地址是用bas464加密的,并且在页面中是隐藏的,如下图1,虽然页面可以看到图片链接,但是实际获取到到的却是是图2中这样的:
图1
图2
打印源码发现图片链接后面还有一串编码,img链接是无效的,需要用到的是后面加密的编码:
在这里插入图片描述

通过base64解码可以得到
在这里插入图片描述

加密的地址可以通过xpath获取到:xpath(’//li/div/div/div[2]/p/span/text()’)

完整代码:

import requests
from urllib import parse,request,error
import base64
from lxml import etree
import os
for i in range(1,69):
    try:
        url = 'http://jandan.net/ooxx/page-{}#comments'.format(i) # 获取全部url
        response = requests.get(url)
        html = etree.HTML(response.content)
        imgs = html.xpath('//li/div/div/div[2]/p/span/text()') #加密的图片地址
        for img_url in imgs:
            img_url = parse.urljoin(response.url, str(base64.b64decode(img_url), encoding='utf-8')) # 解密得到图片地址,用parse构造域名
            split_list = img_url.split('/')
            img_name = split_list.pop() #设置图片名称
            path = os.path.join('E:\\jdimgs', img_name) # 设置下载路径
            request.urlretrieve(img_url, filename=path) # 下载图片
            print(img_url)
    except error.URLError as e:
        print('URLError:', e.reason)
    except error.HTTPError as e:
        print('HTTPError:', e.reason)

结果:
在这里插入图片描述

好的,下面是一个简单Python 爬虫教程,可以批量爬取指定站的图片: 首先,我们需要安装 requests 和 BeautifulSoup 这两个库。可以通过以下命令进行安装: ``` pip install requests pip install beautifulsoup4 ``` 接下来,我们需要编写代码。以下是一个示例代码,可以爬取指定站的图片并保存到本地: ```python import requests from bs4 import BeautifulSoup import os # 爬取图片站 url = "https://www.example.com/" # 请求头,模拟浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} # 发送请求,获取页内容 response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, "html.parser") # 创建保存图片的文件夹 if not os.path.exists("images"): os.makedirs("images") # 遍历所有的图片标签,获取图片链接并保存到本地 for img in soup.find_all("img"): img_url = img.get("src") if img_url.startswith("http"): response = requests.get(img_url) with open("images/" + os.path.basename(img_url), "wb") as file: file.write(response.content) print("已保存图片:", img_url) ``` 在上述代码中,我们首先定义了要爬取站的 URL。然后,我们使用 requests 库发送一个 GET 请求,获取页的 HTML 内容。接着,我们使用 BeautifulSoup 库对 HTML 进行解析,获取所有的图片标签。最后,我们使用 requests 库再次发送 GET 请求,获取图片的二进制数据,并保存到本地的 images 文件夹中。 注意,这里我们使用了一个 if 判断来过滤掉非 HTTP 开头的图片链接,以避免出现下载错误的情况。 为了更好的用户体验,代码中还加入了一些注释,方便大家理解。 希望这个简单Python 爬虫教程能对你有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值