基于DL4J的CNN分类,平台:Spark(对平台的一些调试:在单机和集群件转换)

10 篇文章 0 订阅

免责声明:本文仅代表个人观点,如有错误,请读者自己鉴别;如果本文不小心含有别人的原创内容,请联系我删除;本人心血制作,若转载请注明出处

平台:Spark

深度学习库:DL4J

分类器:softmax

数据集:Minist、MSTAR、Calteck-256

我所使用的例子是在GitHub上下载的,所用的例子是:JavaMnistClassification



1、处理数据集

训练数据:train-images-idx3-ubyte

训练标签:train-labels-idx1-ubyte

如Minist数据,Image size 28*28

训练数据:存放格式是前16位存放关于数据的说明:数据类型、数据样本数、行数、列数(各4位)

训练标签:前8位是对标签的说明:数据类型、标签数目(各4位)

下面讲解一下怎么将普通数据集转换成上述格式

Minist:Image size 28*28(我是通过MATLAB转的)

Data(1:16,1)=[0 0 8 3 0 0 2 88 0 0 0 28 0 0 0 28]';

1-4位:0 0 8 3(无符号整型),这里维持不变就好

5-8位:样本数=Data(8)*(256^3)+Data(7)*256*256+Data(6)*256+Data(5)

9-12位:行数=Data(12)*(256^3)+Data(11)*256*256+Data(10)*256+Data(9)

13-16位:列数=Data(16)*(256^3)+Data(15)*256*256+Data(14)*256+Data(13)

Lab(1:8)=[0 0 8 1 0 0 2 88]';

1-4位:0 0 8 1(无符号整型)

5-8位:标签数(与样本数对应)=Lab(8)*(256^3)+Lab(7)*256*256+Lab(6)*256+Lab(5)

代码如下:


上述代码只是对简单的对一个次类型数据的读写,以这种方式可以转换任何数据,但是需要注意的是无论是数据还是标签都要转换成无符号整型(MATLAB里是uint8格式)

2、设置集群模式和单机模式

因为spark好后就是集群模式,反而难以配置的是单机模式,所以我们主要讲解单机配置,只有在单机模式下才可以进行单步调试

设制单机模式,将模式设置为"local"模式


修改spark-env.sh



再做如下设置



3、代码解析

代码部分主要分为:设置模式,加载数据,设置训练测试数据,设置输入、输出、分类,模型

1)、设置模式,与普通spark代码基本相同



2)、加载数据(设置加载路径,数据分区)



3)、设置训练数据和测试数据



4)、设置输入、输出、分类



上述四步最重要的是要将数据转换成spark的数据库类型DataFrame(spark的并行都是基于这个数据库),然后要建立pipeline(管道),这才是spark实现并行的具体方式

5)、模型(卷积,池化,非线性变换,dropout,分类器等等)



4、结果(迭代次数设置高一些,效果肯定会更好)



总结

这是一个在spark平台上的深度学习实验,所以我们要做的是将数据导入到spark平台,按照spark的平台风格搭建深度模型,其中最关键的是:数据导入,数据库建立,并行,模型等


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值