2025年泰迪杯B题超详细解题思路+快速计算技巧+代码分享

最新推荐文章于 2025-04-15 14:58:54 发布

BZD数模社

最新推荐文章于 2025-04-15 14:58:54 发布

阅读量1.5k

点赞数 27

文章标签：数学建模

本文链接：https://blog.csdn.net/qq_33690821/article/details/147163349

版权

泰迪杯作为数据挖掘挑战赛，本届竞赛提供了三个大数据类型题目，其中AC都涉及文本处理以及智能问答系统，需要选手对这方面有一定了解才好上手。因此,B题数据分析处理就作为了大多数选手的选择。本文将为大家带来详细的B题解题思路，并尽可能为大家找到小技巧，可以规避大规模计算的。

基于穿戴装备的身体活动监测

作为大数据竞赛，首先第一步就是进行数据清洗工作，需要对给出的数据进行。对于本题目，由于涉及数据量过大，我们下面以P001为例进行说明。
数据清洗主要包含缺失值直接使用python【】或matlab【】自带函数查找。对于异常值可以分为阈值处理或者模型处理。

功能	Python	MATLAB
判断单个值是否为NaN	pd.isna(val) / np.isnan(val)	isnan(val)
判断数组中位置	df.isna() / df.isnull()	isnan(A)
筛选含缺失值的行	df[df.isna().any(axis=1)]	A(any(isnan(A),2), :)

Python代码

Matlab代码

import pandas as pd

# 1. 读取数据

file_path = r'G:\1\B题-全部数据\附件1\P001.csv'

df = pd.read_csv(file_path)

# 2. 显示缺失值统计

print("每列缺失值数量：")

print(df.isnull().sum())

# 3. 删除包含缺失值的行

df_cleaned = df.dropna()

# 4. 输出处理结果

print(f"\n原始数据行数: {len(df)}")

print(f"删除缺失值后的数据行数: {len(df_cleaned)}")

print(f"共删除了 {len(df) - len(df_cleaned)} 行含缺失值的数据。")

% 1. 读取数据

filePath = 'G:\1\B题-全部数据\附件1\P001.csv';

data = readtable(filePath);

% 2. 显示每列缺失值数量

disp('每列缺失值数量：');

disp(sum(ismissing(data)));

% 3. 删除含缺失值的行

data_cleaned = rmmissing(data);

% 4. 输出行数对比

originalRows = height(data);

cleanedRows = height(data_cleaned);

fprintf('\n原始数据行数: %d\n', originalRows);

fprintf('删除缺失值后的数据行数: %d\n', cleanedRows);

fprintf('共删除了 %d 行缺失值数据。\n', originalRows - cleanedRows);

阈值处理：查阅文献，找到理论存在X Y Z方向加速度最大值，将该值设定为阈值超过该数据的认定为异常数据，方便起见直接删除处理。下表来自网络收集仅供参考

传感器量程	最大可记录加速度（每轴）
±2g	约 ±2 × 9.8 = ±19.6 m/s²
±4g	约 ±4 × 9.8 = ±39.2 m/s²
±8g	约 ±8 × 9.8 = ±78.4 m/s²
±16g	约 ±16 × 9.8 = ±156.8 m/s²

模型处理：首先对X Y Z方向加速度进行分布方式检验，不同的分布方式对应不同的检验模型。正态分布数据使用3σ原则判定，非正态分布使用箱线图判定，将部分边缘值判定为异常值。（运行时间长、可以误判，不是太推荐）

下面进行每个问题详细的解题

问题一，统计分析志愿者的活动情况

具体问题：根据加速度记录数据，统计汇总附件1中各个志愿者的身体活动信息，数值保留小数点后4位。记录总时长（小时）睡眠总时长（小时）高等强度运动总时长（小时）中等强度运动总时长（小时）低等强度运动总时长（小时）静态活动总时长（小时）。

对于问题一单纯的进行统计分析即可，难度在于我们需要对100个1G左右文件分别进行分析，并存储于结果表格，我自己写了其中一个的记录代码，大家可以自行尝试，单一文件运行时间为10min+【13th Gen Intel(R) Core(TM) i7-13700HX 2.10 GHz 32.0 GB】

因此，本问题通过对数据分析发现，同一秒内记录次数为100次，我们可以单独计算不同活动类型以及出现的次数，计算频数以及利用频数计算时间长度，就可以有效规避大量无用计算。

单一文件计算时间为100s左右，提升了十倍的计算效率

% 3. 计算不同活动类型

unique_annotations = unique(annotations); % 获取不同类型的活动

num_annotations = length(unique_annotations); % 活动类型数量

类型名称	出现次数
7030 sleeping;MET 0.95	3810002 次
home activity;eating;13030 eating sitting alone or with someone;MET 1.5	74004 次
home activity;household chores;preparing meals/cooking/washing dishes;5035 kitchen activity general cooking/washing/dishes/cleaning up;MET 3.3	954511 次
home activity;miscellaneous;sitting;11580 office work such as writing and typing (with or without eating at the same time);MET 1.5	144105 次
home activity;miscellaneous;sitting;9055 sitting/lying talking in person/using a mobile phone/smartphone/tablet or talking on the phone/computer (skype chatting);MET 1.5	308709 次
home activity;miscellaneous;sitting;9060 sitting/lying reading or without observable/identifiable activities;MET 1.3	338112 次
home activity;miscellaneous;standing;9050 standing talking in person on the phone/computer (skype chatting) or using a mobileo phone/smartphone/tablet;MET 1.8	7501 次
home activity;miscellaneous;standing;9050 standing talking in person/on the phone/computer (skype chatting) or using a mobile phone/smartphone/tablet;MET 1.8	49103 次

以下为单一文件运行时间为10min+仅供参考

% 读取数据

data = readtable('G:\1\B题-全部数据\附件1\P001.csv');

% 转换时间格式

data.time = datetime(data.time, 'InputFormat', 'yyyy-MM-dd HH:mm:ss.SSSSSS');

% 计算时间差

time_diff = [0; seconds(diff(data.time))]; % 相邻时间戳的时间差（秒）

% 设置时间差阈值，超出该阈值的时间认为是无效时间段

time_threshold = 300; % 假设超过300秒的时间差认为是无效

% 筛选出有效的时间差（小于阈值的时间段）

valid_time_diff = time_diff(time_diff <= time_threshold);

% 提取MET值

MET_values = extractMETValues(data.annotation);

% 检查MET值的分布

disp('MET Values Summary:');

disp(['High Intensity Count (MET >= 6.0): ', num2str(sum(MET_values >= 6.0))]);

disp(['Moderate Intensity Count (3.0 <= MET < 6.0): ', num2str(sum(MET_values >= 3.0 & MET_values < 6.0))]);

disp(['Low Intensity Count (1.6 <= MET < 3.0): ', num2str(sum(MET_values >= 1.6 & MET_values < 3.0))]);

disp(['Sleep Count (MET < 1.0): ', num2str(sum(MET_values < 1.0))]);

% 计算每个活动的时长（只计算有效时间段）

[high_intensity, moderate_intensity, low_intensity, static_activity, sleep] = categorizeActivity(MET_values, valid_time_diff);

% 统计总时长（单位为小时）

total_duration = sum(valid_time_diff) / 3600; % 总时长，单位：小时

% 获取志愿者ID

volunteer_id = 'P001'; % 当前示例为P001，实际中可以根据需要循环处理多个志愿者

% 构建结果表格

result = table({volunteer_id}, total_duration, sleep / 3600, high_intensity / 3600, moderate_intensity / 3600, low_intensity / 3600, static_activity / 3600, ...

'VariableNames', {'VolunteerID', 'TotalDuration', 'SleepDuration', 'HighIntensityDuration', 'ModerateIntensityDuration', 'LowIntensityDuration', 'StaticActivityDuration'});

% 保存为 Excel 文件

writetable(result, 'result_1.xlsx', 'WriteRowNames', true);

%% 辅助函数：提取MET值

function MET_values = extractMETValues(annotations)

MET_values = NaN(height(annotations), 1);

for i = 1:height(annotations)

% 匹配MET值

expr = 'MET (\d+\.\d+)'; % 查找MET后的浮动数值

tokens = regexp(annotations{i}, expr, 'tokens');

if ~isempty(tokens)

MET_values(i) = str2double(tokens{1}{1});

else