基于DL4J的CNN分类，平台：Spark(对平台的一些调试：在单机和集群件转换)

最新推荐文章于 2024-03-04 09:30:28 发布

LY-林雨

最新推荐文章于 2024-03-04 09:30:28 发布

阅读量4.3k

点赞数

分类专栏： spark DL 文章标签： cnn SPARK 大数据 scala 集群

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenyanqiao2010/article/details/50539054

版权

DL 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

免责声明：本文仅代表个人观点，如有错误，请读者自己鉴别；如果本文不小心含有别人的原创内容，请联系我删除；本人心血制作，若转载请注明出处

平台：Spark

深度学习库：DL4J

分类器：softmax

数据集：Minist、MSTAR、Calteck-256

我所使用的例子是在GitHub上下载的，所用的例子是：JavaMnistClassification

1、处理数据集

训练数据：train-images-idx3-ubyte

训练标签：train-labels-idx1-ubyte

如Minist数据，Image size 28*28

训练数据：存放格式是前16位存放关于数据的说明：数据类型、数据样本数、行数、列数（各4位）

训练标签：前8位是对标签的说明：数据类型、标签数目（各4位）

下面讲解一下怎么将普通数据集转换成上述格式

Minist：Image size 28*28（我是通过MATLAB转的）

Data(1:16,1)=[0 0 8 3 0 0 2 88 0 0 0 28 0 0 0 28]';

1-4位：0 0 8 3（无符号整型），这里维持不变就好

5-8位：样本数=Data（8）*(256^3)+Data(7)*256*256+Data(6)*256+Data(5)

9-12位：行数=Data（12）*(256^3)+Data(11)*256*256+Data(10)*256+Data(9)

13-16位：列数=Data（16）*(256^3)+Data(15)*256*256+Data(14)*256+Data(13)

Lab(1:8)=[0 0 8 1 0 0 2 88]';

1-4位：0 0 8 1（无符号整型）

5-8位：标签数（与样本数对应）=Lab（8）*(256^3)+Lab(7)*256*256+Lab(6)*256+Lab(5)

代码如下：

上述代码只是对简单的对一个次类型数据的读写，以这种方式可以转换任何数据，但是需要注意的是无论是数据还是标签都要转换成无符号整型（MATLAB里是uint8格式）

2、设置集群模式和单机模式

因为spark好后就是集群模式，反而难以配置的是单机模式，所以我们主要讲解单机配置，只有在单机模式下才可以进行单步调试

设制单机模式，将模式设置为"local"模式

修改spark-env.sh

再做如下设置

3、代码解析

代码部分主要分为：设置模式，加载数据，设置训练测试数据，设置输入、输出、分类，模型

1）、设置模式，与普通spark代码基本相同

2）、加载数据（设置加载路径，数据分区）

3）、设置训练数据和测试数据

4）、设置输入、输出、分类

上述四步最重要的是要将数据转换成spark的数据库类型DataFrame（spark的并行都是基于这个数据库），然后要建立pipeline（管道），这才是spark实现并行的具体方式

5）、模型（卷积，池化，非线性变换，dropout，分类器等等）

4、结果（迭代次数设置高一些，效果肯定会更好）

总结

这是一个在spark平台上的深度学习实验，所以我们要做的是将数据导入到spark平台，按照spark的平台风格搭建深度模型，其中最关键的是：数据导入，数据库建立，并行，模型等

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基于DL4J的CNN分类，平台：Spark(对平台的一些调试：在单机和集群件转换)

基于DL4J的CNN实现
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。