爬虫实例五从网易buff上实时监控某个物品信息并保存

置顶沁致中

已于 2023-09-08 19:36:52 修改

阅读量3.4k

点赞数 5

文章标签：开发语言 beautifulsoup

于 2023-09-08 19:35:55 首次发布

本文链接：https://blog.csdn.net/m0_59205083/article/details/132766432

版权

本文旨在探讨如何从网易buff上实时监控某个物品价格的技术实现。首先，我们将介绍所要解决的问题及其背景，然后对可能的方法进行分析，并最终选定一种解决方案。接下来，我们将详细介绍这种解决方案的步骤、监控指标以及数据来源，最后对整个方案进行总结并讨论可能的改进或扩展。

一、问题描述

网易buff是一款著名的游戏饰品交易平台，平台上涉及众多游戏饰品的价格波动。对于一些热门的游戏饰品，其价格往往会产生较大的变化。因此，我们需要一种方法来实时监控这些物品的价格，以便及时做出反应。

二、解决方案分析

对于上述问题，我们可以考虑以下两种解决方案：

使用网易buff的API接口。网易buff提供了官方的API接口，可以方便地获取到平台上的各种数据，包括物品价格。这种方法的好处是准确度高且实时性较好，但缺点是API接口的使用可能需要申请且有时会有使用限制。
通过网页抓取方式获取数据。这种方法可以通过爬虫程序直接从网易buff的网页上抓取物品价格信息。其优点是实现简单且可以绕过一些API接口的使用限制，但缺点是可能会被网易buff的防爬虫机制限制。

综合以上分析，我们选择使用网页抓取的方式来实现实时监控物品价格的功能。

三、解决方案详解

实现步骤

（1）使用爬虫程序访问网易buff的网页版，并解析出需要监控的物品的价格信息。

（2）将解析出的价格信息存储到数据库中，以便后续查询和处理。

（3）设定定时任务，使爬虫程序每隔一段时间自动执行一次，以实现实时监控。

数据来源

本解决方案的数据来源主要是网易buff的网页版，通过爬虫程序自动抓取所需的价格信息。

以下是一个简单的Python代码示例，演示如何使用爬虫程序从网易buff上获取物品价格信息：

代码实例

# -*- coding: utf-8 -*-  # 设定文件的编码格式为utf-8

import requests  # 导入requests库，用于发送HTTP请求
import re  # 导入re库，用于正则表达式操作
from bs4 import BeautifulSoup  # 导入BeautifulSoup库，用于解析HTML文件
from datetime import datetime  # 导入datetime库，用于操作日期和时间
import schedule  # 导入schedule库，用于定时任务
import time  # 导入time库，用于时间操作


def getHTMLText(url):  # 定义一个函数getHTMLText，输入一个URL，返回该URL的HTML文本
    try:
        kv = {"User-Agent": 'Mozilla/5.0'}  # 定义请求头，模拟Mozilla浏览器
        r = requests.get(url, timeout=30, headers=kv)  # 发送GET请求到指定URL，设定超时时间为30秒，使用定义的请求头
        r.raise_for_status()  # 如果请求状态不是200，则抛出异常
        r.encoding = r.apparent_encoding  # 设定返回内容的编码为apparent_encoding，通常是UTF-8

        return r.text  # 返回请求到的HTML文本内容
    except:
        return ""  # 如果出现异常，则返回空字符串


def filehtml(html):  # 定义一个函数filehtml，输入HTML文本，提取其中的信息并返回
    soup = BeautifulSoup(html, "lxml")  # 使用BeautifulSoup解析输入的HTML文本，使用lxml解析器
    item = str(soup.head.title.string)  # 提取HTML中的标题内容，转换为字符串

    items = str(soup.body.find_all("div", class_="relative-goods"))  # 在HTML中找到所有的class为relative-goods的div元素，转换为字符串
    # 提取中文字符
    chinese_characters = re.findall(r'[\u4e00-\u9fff]+', items)  # 使用正则表达式提取items中的所有中文字符
    # print('中文字符:', chinese_characters)  # 打印中文字符，用于调试
    # print(type(chinese_characters))  # 打印中文字符的类型，用于调试

    data_prices = re.findall(r'data-price="\d+', items)  # 使用正则表达式提取items中的所有data-price属性的值
    # print('data-price:', data_prices)  # 打印data-price的值，用于调试
    # print(type(data_prices))  # 打印data-price的类型，用于调试
    return item, chinese_characters, data_prices  # 返回标题、中文字符和data-price的值


def printdate(item, chinese_characters, data_prices):  # 定义一个函数printdate，输入标题、中文字符和data-price的值，打印这些信息
    print("{}".format(item))  # 打印标题
    for i in range(len(chinese_characters)):  # 循环打印中文字符和对应的data-price的值
        print(
            "{:4}\t{:8}元".format(chinese_characters[i], data_prices[i]))  # 使用格式化字符串打印，中文字符占4个字符宽度，data-price的值占8个字符宽度


def keepdata(item, chinese_characters, data_prices):  # 定义一个函数keepdata，输入标题、中文字符和data-price的值，将这些信息保存在文件中
    result = []  # 定义一个空列表result
    now = datetime.now()  # 获取当前时间
    formatted_date = now.strftime('%Y-%m-%d %H:%M:%S')  # 将当前时间格式化为字符串，格式为年-月-日 时:分:秒
    f = open("pricedata.txt", "a")  # 以追加模式打开文件pricedata.txt
    f.write(item + "\n" + "时间" + "\t" + formatted_date + "\n")  # 将标题和时间写入文件，并添加换行符

    for i in range(len(chinese_characters)):  # 循环将中文字符和对应的data-price的值写入文件
        f.write("类型" + "\t" + chinese_characters[i] + "\t" + data_prices[
            i] + "元" + "\n")  # 使用制表符将类型、中文字符和data-price的值分隔开

主函数

def main():
    url = "https://buff.163.com/goods/33965"
    a = getHTMLText(url)
    item, chinese_characters, data_prices = filehtml(a)
    printdate(item, chinese_characters, data_prices)
    keepdata(item, chinese_characters, data_prices)

main()
schedule.every(5).seconds.do(main)


while True:
    schedule.run_pending()
    time.sleep(1)

完整版代码

# -*- coding: utf-8 -*-

import requests
import re
from bs4 import BeautifulSoup
from datetime import datetime
import schedule
import time


def getHTMLText(url):
    try:
        kv = {"User-Agent": 'Mozilla/5.0'}
        r = requests.get(url, timeout=30, headers=kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding

        return r.text
    except:
        return ""


def filehtml(html):
    soup = BeautifulSoup(html, "lxml")
    item = str(soup.head.title.string)

    items = str(soup.body.find_all("div", class_="relative-goods"))
    # 提取中文字符
    chinese_characters = re.findall(r'[\u4e00-\u9fff]+', items)
    # print('中文字符:', chinese_characters)
    # print(type(chinese_characters))

    data_prices = re.findall(r'data-price="\d+', items)
    # print('data-price:', data_prices)
    # print(type(data_prices))
    return item, chinese_characters, data_prices


def printdate(item, chinese_characters, data_prices):
    print("{}".format(item))
    for i in range(len(chinese_characters)):
        print("{:4}\t{:8}元".format(chinese_characters[i], data_prices[i]))


def keepdata(item, chinese_characters, data_prices):
    result = []
    now = datetime.now()
    formatted_date = now.strftime('%Y-%m-%d %H:%M:%S')
    f = open("pricedata.txt", "a")
    f.write(item + "\n" + "时间" + "\t" + formatted_date + "\n")

    for i in range(len(chinese_characters)):
        f.write("类型" + "\t" + chinese_characters[i] + "\t" + data_prices[i] + "元" + "\n")
    f.close()


def main():
    url = "https://buff.163.com/goods/33965"
    a = getHTMLText(url)
    item, chinese_characters, data_prices = filehtml(a)
    printdate(item, chinese_characters, data_prices)
    keepdata(item, chinese_characters, data_prices)

main()
schedule.every(5).seconds.do(main)


while True:
    schedule.run_pending()
    time.sleep(1)