泰迪杯实战案例超深度解析：旅游景点游客流量预测与资源优化

本文链接：https://blog.csdn.net/qq_63961628/article/details/147555562

（2025年泰迪杯数据挖掘挑战赛D题特等奖案例）

一、案例背景与目标

1.1 应用场景与痛点

某5A级景区面临以下核心问题：

拥堵严重：节假日热门景点游客密度超过10人/㎡，排队时间长达2小时。
资源浪费：接驳车空载率30%，餐饮点位在非高峰时段闲置率60%。
应急滞后：突发降雨或设备故障时，人工调度响应时间超过20分钟。

1.2 目标与量化指标

问题	目标	技术指标
游客流量预测	预测未来3天每15分钟客流量	MAE < 50人/时段，覆盖率 > 95%
资源调度优化	接驳车空载率降低至15%，餐饮等待时间 < 10分钟	调度响应时间 < 3分钟
异常事件响应	突发事件检测延迟 < 5分钟	准确率 > 90%，误报率 < 5%

二、数据准备与特征工程（超详细步骤）

2.1 多源数据整合与清洗

2.1.1 数据来源与格式

票务数据（MySQL数据库）：
- 字段：user_id（脱敏）、entry_time、exit_time、gate_id。
- 清洗逻辑：剔除停留时间超过24小时的异常记录（可能为员工卡）。

Wi-Fi探针数据（Kafka实时流）：

原始报文示例：

json

{
  "ap_id": "AP_023", 
  "timestamp": 1714550400,
  "mac_list": ["a1:b2:c3:d4:e5:f6", ...],
  "signal_strength": [-67, -72, ...]
}

解析步骤：

python

# 解析JSON并统计连接数
from pyspark.sql.functions import explode
df = spark.read.json(kafka_stream).selectExpr(
    "ap_id", "timestamp", 
    "size(mac_list) as user_count",
    "explode(mac_list) as mac"
)

外部数据接入：

天气API（每小时调用）：

python

import requests
def fetch_weather(lat, lng):
    url = f"https://api.weather.com/v3?lat={lat}&lon={lng}"
    return requests.get(url).json()['hourly_forecast']