处理不等长的数据？

最新推荐文章于 2024-08-26 10:22:28 发布

人工智能（篮球方向）

最新推荐文章于 2024-08-26 10:22:28 发布

阅读量1.4k

点赞数

分类专栏：技术细节总结

本文链接：https://blog.csdn.net/weixin_42386003/article/details/108632887

版权

技术细节总结专栏收录该内容

11 篇文章 1 订阅

订阅专栏

最近在处理EEG数据，遇到不等长的EEG数据，需要处理成等长的数据。

首先：

先看数据的分布，是否符合正太分布,datas_lengths是数据长度的列表，分别存储每一个样本的数据长度

num_tokens = np.array(data_lengths)
plt.hist(np.log(num_tokens), bins = 100)
plt.xlim((1,10))
plt.ylabel('number of tokens')
plt.xlabel('length of tokens')
plt.title('Distribution of tokens length')
plt.show()

显示数据柱状图：

然后：

这里用一个均值+2个标准差，可以覆盖到97%左右的数据。（正态分布的特性）


max_tokens = np.mean(data_lengths) + 2 * np.std(data_lengths)
max_tokens = int(max_tokens)
max_tokens

最后：

使用pad_sequences（keras包提供的函数）截取和补齐数据

（长于max_tokens的数据进行截取，短于max_tokens的数据进行补0）

from tensorflow.python.keras.preprocessing.sequence import pad_sequences
train_pad = pad_sequences(x_data, maxlen=max_tokens,
                            padding='pre', truncating='pre',dtype=float)