数学建模_时间序列处理 & One-Hot 编码

A.forever power

于 2024-09-01 08:58:53 发布

阅读量228

点赞数 3

文章标签：数学建模

本文链接：https://blog.csdn.net/2302_76951580/article/details/141774133

版权

1. 时间序列处理

1.1 时间序列的定义

时间序列（Time Series） 是按照时间顺序记录的变量值序列。它通常用于分析数据随时间变化的趋势、周期性、季节性和随机性。

时间序列数据的典型特征包括：

时间依赖性：每个时间点的数据点依赖于前后时间点的数据。
顺序性：时间序列中的数据必须按照时间顺序排列。
周期性/季节性：数据可能会展示某种固定的周期性或季节性波动。

1.2 时间序列处理的常见任务

时间戳解析与转换：将字符串格式的日期时间转换为可用于分析的时间戳格式。
时间特征提取：从时间戳中提取年、月、日、星期等特征，用于建模或分析。
时间序列重采样：将数据从一个时间频率转换为另一个时间频率（如从日数据转换为月数据）。
时间序列平滑：使用滑动平均、指数平滑等方法去除噪声或平滑时间序列。

1.3 Python中的时间序列处理

Python的pandas库提供了强大的工具来处理时间序列数据。

1.3.1 时间戳解析与转换

使用pandas的to_datetime函数，可以轻松将日期和时间字符串解析为datetime对象。

示例代码：

import pandas as pd

# 示例数据
data = {
    'date': ['2023-01-01', '2023-01-02', '2023-01-03'],
    'time': ['08:00:00', '09:00:00', '10:00:00'],
    'value': [100, 200, 300]
}

# 创建DataFrame
df = pd.DataFrame(data)

# 将日期和时间合并为时间戳
df['datetime'] = pd.to_datetime(df['date'] + ' ' + df['time'])

print(df)

输出结果：

      date      time  value            datetime
0  2023-01-01  08:00:00    100 2023-01-01 08:00:00
1  2023-01-02  09:00:00    200 2023-01-02 09:00:00
2  2023-01-03  10:00:00    300 2023-01-03 10:00:00

1.3.2 时间特征提取

从datetime对象中提取年、月、日、星期等时间特征。

示例代码：

# 提取年份、月份、日、小时等
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df['day'] = df['datetime'].dt.day
df['hour'] = df['datetime'].dt.hour
df['weekday'] = df['datetime'].dt.weekday  # Monday=0, Sunday=6

print(df)

输出结果：

        date      time  value            datetime  year  month  day  hour  weekday
0  2023-01-01  08:00:00    100 2023-01-01 08:00:00  2023      1    1     8        6
1  2023-01-02  09:00:00    200 2023-01-02 09:00:00  2023      1    2     9        0
2  2023-01-03  10:00:00    300 2023-01-03 10:00:00  2023      1    3    10        1

1.3.3 时间序列重采样

重采样指的是改变时间序列数据的时间频率，比如将日数据转换为月数据，或将分钟数据转换为小时数据。

示例代码：

# 生成一个按小时记录的时间序列数据
date_rng = pd.date_range(start='2023-01-01', end='2023-01-02', freq='H')
df = pd.DataFrame(date_rng, columns=['datetime'])
df['value'] = range(len(df))

# 将时间序列按天重采样，并计算每日均值
daily_data = df.resample('D', on='datetime').mean()

print(daily_data)

输出结果：

 datetime    value   
2023-01-01    11.5
2023-01-02    23.0

1.3.4 时间序列平滑

时间序列平滑可以使用滑动平均（Moving Average）或指数平滑（Exponential Smoothing）等技术来减少噪声。

示例代码：

# 生成示例时间序列数据
df['value'] = df['value'] + np.random.randn(len(df)) * 5  # 加入噪声

# 使用滑动平均进行平滑处理
df['smoothed'] = df['value'].rolling(window=3).mean()

print(df.head(10))

2. One-Hot编码

2.1 One-Hot编码的定义

One-Hot编码是一种将分类变量转换为二进制（0和1）的编码方式。每个类别都会生成一个新的二进制列，指示某个样本是否属于该类别。

One-Hot编码是处理分类数据的常用方法，特别是在需要将分类数据输入到机器学习模型中时，它有助于模型理解不同类别之间的差异，而不引入虚假的顺序关系。

2.2 One-Hot编码的实现方法

One-Hot编码的基本思想是将每个分类变量的每个独特值（类别）表示为一组二进制向量。例如，假设我们有一个颜色特征，有三个可能的值：红色、绿色和蓝色。One-Hot编码会将其转换为三个二进制变量：

颜色	红色	绿色	蓝色
红色	1	0	0
绿色	0	1	0
蓝色	0	0	1

2.3 One-Hot编码的优势与劣势

优势：
- 避免了分类变量被模型错误地认为是有序的。
- 适用于大多数机器学习算法。
劣势：
- 当类别较多时，会增加数据的维度，导致"维度灾难"。
- 对高维数据的处理和存储要求更高。

2.4 Python中的One-Hot编码实现

Python中的pandas库提供了非常简单的实现One-Hot编码的方式，即get_dummies函数。

2.4.1 基本实现

示例代码：

import pandas as pd

# 示例数据
data = {
    'color': ['red', 'green', 'blue', 'green', 'red', 'blue']
}

# 创建DataFrame
df = pd.DataFrame(data)

# 对分类变量进行One-Hot编码
df_encoded = pd.get_dummies(df, columns=['color'])

print(df_encoded)

输出结果：

        color_blue  color_green  color_red
0           0            0          1
1           0            1          0
2           1            0          0
3           0            1          0
4           0            0          1
5           1            0          0

2.4.2 处理多个分类变量

如果有多个分类变量，可以同时对它们进行One-Hot编码。

示例代码：

# 示例数据
data = {
    'color': ['red', 'green', 'blue'],
    'size': ['S', 'M', 'L']
}

# 创建DataFrame
df = pd.DataFrame(data)

# 对多个分类变量进行One-Hot编码
df_encoded = pd.get_dummies(df, columns=['color', 'size'])

print(df_encoded)

输出结果：

        color_blue  color_green  color_red  size_L  size_M  size_S
0           0            0          1       0       0       1
1           0            1          0       0       1       0
2           1            0          0       1       0       0

2.4.3 避免虚拟变量陷阱

在某些情况下，例如线性回归中，使用One-Hot编码时可能会引入多重共线性问题，即"虚拟变量陷阱"。为了避免这个问题，可以通过删除一个虚拟变量来解决。

示例代码：

# 示例数据
data = {
    'color': ['red', 'green', 'blue', 'green', 'red', 'blue']
}

# 创建DataFrame
df = pd.DataFrame(data)

# 对分类变量进行One-Hot编码并删除第一个类别
df_encoded = pd.get_dummies(df, columns=['color'], drop_first=True)

print(df_encoded)

输出结果：

        color_green  color_red
0            0          1
1            1          0
2            0          0
3            1          0
4            0          1
5            0          0

A.forever power

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
数学建模_时间序列处理 & One-Hot 编码

时间序列（Time Series）是按照时间顺序记录的变量值序列。它通常用于分析数据随时间变化的趋势、周期性、季节性和随机性。时间依赖性：每个时间点的数据点依赖于前后时间点的数据。顺序性：时间序列中的数据必须按照时间顺序排列。周期性/季节性：数据可能会展示某种固定的周期性或季节性波动。One-Hot编码是一种将分类变量转换为二进制（0和1）的编码方式。每个类别都会生成一个新的二进制列，指示某个样本是否属于该类别。
复制链接

扫一扫