【Pandas】通过字典构造DataFrame，解决numpy多维数组无法构造问题

最新推荐文章于 2024-04-02 11:08:50 发布

拾夕er

最新推荐文章于 2024-04-02 11:08:50 发布

阅读量2.1k

点赞数 1

分类专栏： Pandas 文章标签： Pandas

本文链接：https://blog.csdn.net/weixin_42279212/article/details/124022959

版权

Pandas 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

1.需求
2. 解决办法
3.源数据
4.构造

1.需求

⭐️ 在构造时间序列数据时，最后构造好的numpy时间序列数据，无法构造成DataFrame，报错

2. 解决办法

⭐️ 通过字典进行构造

3.源数据

⭐️ 以下是原始数据，总共112行
在这里插入图片描述

4.构造

4.1构造代码

⭐️ 时间窗口设置为20，构造代码如下

all_time_seq = e['time_seq'].values
all_request_head_tokens = e['request_head_tokens'].values
test_dict = {"pre_token":[], "all_time":[]}
all_pre_token = np.empty((0,300))
all_time = np.empty((0,20,3))


total_len = len(e)
for i in range(total_len):
    if i == 0:
        all_pre_token = np.append(all_pre_token, [np.ones(300)], axis=0)
        test_dict["pre_token"].append(np.ones(300))
    if i > 0:
        all_pre_token = np.append(all_pre_token, [all_request_head_tokens[i-1]], axis=0)
        test_dict["pre_token"].append(all_request_head_tokens[i-1])
    if i < 19:
        temp_time = np.array([25, 61, 61]*(19-i) + [x for x1 in list(all_time_seq[:i+1]) for x in x1]).reshape(20,3)
        all_time = np.append(all_time, [temp_time], axis=0)
        test_dict["all_time"].append(temp_time)
    if i >= 19:
        temp_time = np.array([x for x1 in list(all_time_seq[i-19:i+1]) for x in x1]).reshape(20,3)
        all_time = np.append(all_time, [temp_time], axis=0)
        test_dict["all_time"].append(temp_time)
print(all_pre_token.shape)
print(all_time.shape)
testdf = pd.DataFrame(test_dict)
testdf.index = e.index
testdf

4.2构造结果

⭐️ 构造了时分秒时间序列，窗口为20，所以每条数据的shape为 20*3,总共112行
在这里插入图片描述
⭐️ 查看构造的尺寸

print(testdf.iloc[0,1].shape)
# 输出为
# (20, 3)

4.3 拼接源数据

⭐️ 拼接代码

e = pd.concat([e, testdf], axis=1)

⭐️ 拼接结果
在这里插入图片描述

拾夕er

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Pandas】通过字典构造DataFrame，解决numpy多维数组无法构造问题

文章目录1.需求2. 解决办法3.源数据4.构造4.1构造代码4.2构造结果4.3 拼接源数据1.需求⭐️ 在构造时间序列数据时，最后构造好的numpy时间序列数据，无法构造成DataFrame，报错2. 解决办法⭐️ 通过字典进行构造3.源数据⭐️ 以下是原始数据，总共112行4.构造4.1构造代码⭐️ 时间窗口设置为20，构造代码如下all_time_seq = e['time_seq'].valuesall_request_head_tokens = e['request_he
复制链接

扫一扫