stl文件 python_STL_10数据集处理

最新推荐文章于 2024-05-19 10:04:03 发布

weixin_39614094

最新推荐文章于 2024-05-19 10:04:03 发布

阅读量968

点赞数

文章标签： stl文件 python

本文介绍了如何使用Python处理STL10数据集，该数据集用于非监督学习，特别是自编码器的训练。讨论了自编码器的原理和测试协议，并详细展示了数据集的文件格式和解压方法。通过阅读和理解他人的代码，作者展示了如何读取和预处理STL10的二进制文件，最终将处理后的图片存储为.img格式。

摘要由CSDN通过智能技术生成

这次要写的是stl10用于自编码器

自编码，又称自编码器(autoencoder)，是神经网络的一种，经过训练后能尝试将输入复制到输出。自编码器(autoencoder)内部有一个隐藏层h，可以产生编码(code)表示输入。该网络可以看作由两部分组成：一个由函数h = f(x) 表示的编码器和一个生成重构的解码器r = g(h)。

自编码器(Autoencoder，AE)是一个3层或者大于3层的神经网络，将输入表达X编码为一个新的表达Y，然后再将Y解码回X。这是一个非监督学习算法，使用反向传播算法来训练网络使得输出等于输入。当向网络中添加一些限制时，可以学到一些关于输入表达的有趣结构。当隐含层节点数d比输入层节点数n小时，可以得到一个输入的压缩表达。当d比n大时，添加一些限制，比如稀疏限制，会得到类似于稀疏编码的结果。

传统自编码器被用于降维或特征学习。近年来，自编码器与潜变量模型理论的联系将自编码器带到了生成式建模的前沿。自编码器可以被看作是前馈网络的一个特例，并且可以使用完全相同的技术进行训练，通常使用小批量梯度下降法(其中梯度基于反向传播计算) 。不同于一般的前馈网络，自编码器也可以使用再循环(recirculation)训练 (Hinton and McClelland, 1988)，这种学习算法基于比较原始输入的激活和重构输入的激活。

下面介绍stl10

用于非监督学习哒数据集

测试协议

我们建议采用以下标准化测试方案来报告结果：

(1)对未贴标签的进行无监督培训。

(2)使用培训数据中100个示例的10倍(预定义)对标记数据进行监督培训。提供了用于每个褶皱的示例的索引。

(3)报告完整测试集的平均精度。

二进制文件(来自Martin Tutek的python代码)

(1)二进制文件分为数据文件和带后缀的标签文件：train_x.bin、train_y.bin、test_x.bin和test_y.bi