python爬虫项目（一）：爬取电商网站商品价格变化历史并分析趋势

人工智能_SYBH

于 2024-10-01 22:51:33 发布

阅读量351

点赞数 9

分类专栏：爬虫试读文章标签：爬虫 2024

本文链接：https://blog.csdn.net/m0_68036862/article/details/142675828

版权

爬虫试读专栏收录该内容

20 篇文章 0 订阅

订阅专栏

引言

随着电子商务的迅猛发展，消费者对于商品价格的敏感度不断提升，商品价格的波动趋势也成为研究市场行为的一个重要课题。本文将使用现代爬虫技术、数据处理和机器学习方法，从电商网站中爬取商品价格变化历史，并通过趋势分析预测未来价格变化。

一、需求分析与爬虫设计

需求分析
- 目标：爬取电商网站某商品的价格历史数据。
- 数据来源：某知名电商网站的商品页面。
- 频率：每日或更高频次记录商品价格变化。
- 数据结构：包括商品名称、价格、时间、评论数、评价等信息。
爬虫设计
- 工具选择：选择适合的爬虫工具非常重要，Python中的Scrapy和Selenium是主流工具。Scrapy擅长大规模爬取数据，而Selenium适合动态页面的抓取。
- 反爬策略：大部分电商网站都具备反爬虫策略，避免触发验证码或IP封禁是爬虫设计的核心之一。可以使用代理池、随机延迟和浏览器模拟等方式绕过反爬。
爬虫实施方案
- 使用Selenium模拟浏览器行为，解析页面中通过JavaScript动态加载的价格数据。
- 爬取的频率应保持合理，避免引发网站过度响应问题。
- 存储结构：建议存储为数据库格式（如MySQL或MongoDB），便于后期分析。

二、爬虫代码实现

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time
import pandas as pd
from datetime import datetime

# 初始化Chrome浏览器
service = Service(executable_path="chromedriver_path")
driver = webdriver.Chrome(service=service)

# 设置爬取URL
product_url = "https://www.example.com/product_page"
driver.get(product_url)

# 定义爬取函数
def scrape_price_data():
    time.sleep(5)  # 等待页面加载
    try:
        # 获取商品名称
        product_name = driver.find_element(By.CSS_SELECTOR, 'h1.product-title').text
        
        # 获取当前价格
        price = driver.find_element(By.CSS_SELECTOR, 'span.price').text
        
        # 获取时间戳
        timestamp = datetime.now()
        
        # 返回数据
        return {
            "Product Name": product_name,
            "Price": price,
            "Timestamp": timestamp
        }
    except Exception as e:
        print("Error:", e)
        return None

# 保存数据至DataFrame
price_history = []

for i in range(30):  # 模拟每天爬取
    price_data = scrape_price_data()
    if price_data:
        price_history.append(price_data)
    time.sleep(86400)  # 每日爬取一次

# 转换为Pandas DataFrame
df = pd.DataFrame(price_history)

# 保存数据至CSV文件
df.to_csv('price_history.csv', index=False)

# 关闭浏览器
driver.quit()

三、数据清洗与处理

数据清洗
- 价格字段的处理：爬取的价格数据可能包含货币符号，需要将其转换为数字形式便于分析。
- 缺失值处理：如果某天数据爬取失败，则需根据周边数据进行插补，或通过其他方法修正。
- 时间格式转换：确保时间戳为统一的datetime格式，便于时间序列分析。

# 数据清洗
df['Price'] = df['Price'].str.replace('$', '').astype(float)  # 将价格转换为浮点数
df['Timestamp'] = pd.to_datetime(df['Timestamp'])  # 转换时间戳格式

四、价格趋势分析

可视化价格变化
- 使用Matplotlib或Seaborn库绘制价格变化趋势图，帮助直观观察价格走势。

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.lineplot(x='Timestamp', y='Price', data=df)
plt.title('Product Price Over Time')
plt.xlabel('Date')
plt.ylabel('Price ($)')
plt.show()

价格变化的统计分析
- 描述性统计：计算平均价格、价格波动范围、价格标准差等。
- 价格变化率：计算每日价格变化的百分比，并分析其波动趋势。

df['Price Change'] = df['Price'].pct_change() # 计算每日价格变化百分比
average_price_change = df['Price Change'].mean() # 平均价格变化
std_dev_price_change = df['Price Change'].std() # 标准差

五、趋势预测模型

ARIMA模型进行时间序列预测
- ARIMA（AutoRegressive Integrated Moving Average）模型是经典的时间序列预测方法，适合用于平稳或差分平稳的价格数据。

from statsmodels.tsa.arima_model import ARIMA

# 设置时间序列模型
model = ARIMA(df['Price'], order=(5, 1, 0)) # (p, d, q) 参数设定
model_fit = model.fit(disp=0)

# 预测未来价格
forecast = model_fit.forecast(steps=10)[0]
print("未来价格预测：", forecast)

Prophet模型进行趋势预测
- Facebook Prophet 是一种先进的时间序列预测工具，适合包含季节性和趋势性的价格数据。它可以处理假期等特殊事件对价格的影响。

from fbprophet import Prophet

# 准备数据
df_prophet = df[['Timestamp', 'Price']].rename(columns={'Timestamp': 'ds', 'Price': 'y'})

# 设置模型
model = Prophet()
model.fit(df_prophet)

# 未来预测
future = model.make_future_dataframe(periods=30)
forecast = model.predict(future)

# 预测结果可视化
model.plot(forecast)
plt.show()

机器学习回归模型
- 除了时间序列模型，还可以使用机器学习回归算法（如线性回归、随机森林、XGBoost）来根据历史数据预测未来价格。

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# 特征工程
df['Day'] = df['Timestamp'].dt.day
df['Month'] = df['Timestamp'].dt.month
df['Year'] = df['Timestamp'].dt.year

# 划分训练集与测试集
X = df[['Day', 'Month', 'Year']]
y = df['Price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 构建随机森林回归模型
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# 预测与评估
y_pred = rf_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差: {mse}")