个人学习记录:多尺度衍射U-Net:采用采样和跳过连接建模的鲁棒全光深度学习框架

Multiscale diffractive U-Net

a robust all-optical deep learning framework modeled with sampling and skip connections

abstract:

        衍射深度神经网络(D²NNs)作为一种全光学学习框架,在运行速度、数据吞吐量和能耗方面具有很大的潜力。网络的深度和层间的错位是制约其进一步发展的两个问题。本文提出了一种基于多尺度特征融合的鲁棒全光网络框架(多尺度衍射U-Net, MDUNet)。通过引入采样和跳过连接,可以显著提高网络的深度扩展和对齐鲁棒性。

        与常见的全光学习框架相比,MDUNet在MNIST和Fashion-MNIST上的准确率最高,分别为98.81%和89.11%。通过集成学习方法构建光电混合神经网络,MNIST和Fashion-MNIST的测试准确率分别提高到99.06%和89.86%。

1. Introduction

(1)神经网络在解决复杂任务时,通常需要扩大网络规模,这对硬件的计算效率和数据吞吐量提出了严格的要求。速度和能量基本上受到寄生电容、隧道效应和串扰的限制。

(2)光学运算可以以光速进行卷积、傅里叶变换和微分,为神经网络提供了额外的拟合自由度。集成在芯片上的光子电路可以模拟突触和神经信号,从而构建人工神经网络。

(3)D²NN的网络深度和各层的不对齐仍然是限制其进一步发展的两个问题。

(4)在光学领域,U-Net被用于波前校正和散射成像等任务。U-Net的优异性能是由于其采样和跳接两种特殊的结构。通过多次下采样和上采样获得目标不同尺度的特征,通过跳跃连接融合多尺度特征。

(5)提出了一种基于多尺度特征融合的鲁棒全光学深度学习框架—多尺度衍射U-Net (MDUNet),通过引入采样和跳跃连接实现多尺度特征提取和融合。

2. Modeling methods and parameters(建模方法和参数)

        相位调制和幅度调制通过多个无源衍射层独立实现。每个神经元产生一个次级波源,每层像素级调制的光被视为向前传播的新的衍射光源,如图1(a)所示。

Figure1(a)MDUNet的结构原理

       每一层的神经元通过远场瑞利-索末菲衍射方程的自由空间波传播与相邻层的神经元相连:

其中:

在位置(xi,yi,zi)处,输出

 其中:

 ai(xi,yi,zi)为振幅系数,φi(xi,yi,zi)为相位,在训练过程中:

MDUNet最特殊的架构是下采样-上采样模块(D-UM)和跳过连接(SC)。

D-UM通过改变无源衍射层像素的大小来执行下采样或上采样过程,如图1(b)所示。

在MDUNet中,不同尺度的特征被定义为不同尺度采样后的光场分布。由于光场可以通过干涉直接叠加,因此有可能在相应尺度上融合光学特征。利用不同尺度的采样模块获取目标的多尺度特征,可以提高网络性能。

(b)下采样和上采样原理示意图。

        对于SC,采用可训练的分裂比γ的分束器(BS:分束器(和反射器)可以用来融合相应尺度的特征)建立跳跃连接,通过反射器将光场汇聚到指定层。分裂比的变化范围为0-1。

        如果γ为0,则入射信号完全通过跳跃连接反射传输。若γ为1,则入射信号完全通过主路径传输,即取消跳线连接。

        在训练过程中,将根据反向传播算法对该参数进行优化。因此,BS为(t为透射,r为反射):

        非线性层使用光折变晶体(铌酸锶钡SBN:60),光折变晶体的厚度可设为1mm,晶体上的电压可设为972 V,此时非线性材料的相位变化在0 ~ π之间,可表示为:

        以一个7层MDUNet为例,其网络结构示意图如图1(c)所示。它由3对D-UMs和sc组成,最后一层衍射层用于提高结果的信噪比。考虑到高集成度要求,MDUNet的工作波长为785 nm。输入输出采用128 × 128像素的分辨率,最小像素尺寸设置为420 nm。

1(c)MNIST和Fashion-MNIST的MDUNET框架。

 其他训练参数:

1、振幅调制限制在(0,1)

2、相位调制限制在(0,2 π)。

3、为了保证最大的能量传递效率,将调幅的初始值定义为1。

4、随机权重用于初始化相位调制的值。

5、分裂比γ的初始值设为1,训练间隔为0-1。

6、learning rate=0.001,batch size=8。

7、优化器:Adam

8、损失函数:交叉熵。

9、采样率设置为2。在下采样过程中,衍射层的像素分辨率降低到前一层的1/2,像素大小放大到2倍。相反,在上采样过程中,衍射层的单面像素分辨率扩大到前一层的2倍,像素大小减小到1/2。

3、Result

3.1MDUNet和D²NN的性能比较(在Minist与Fashion-MNIST上)

不同层数下MDUNet和D2NN盲测精度和神经元数量的比较
(a) MNIST, (b) Fashion-MNIST。(c)不同层次的MDUNet和D2NN的神经元数量。

(1)在网络层数相同的情况下,MDUNet的测试精度始终优于D²NN

(2)随着层数的增加,D²NN逐渐出现梯度消失和梯度爆炸的问题,导致最终分类精度下降。

(3)随着层数增加,MDUNet的神经元数量增量较小,训练参数也更少

3.2 D²NN与不同层的MDUNet的收敛比较

MDUNet与D²NN的收敛图比较: (a) MNIST, (b) FashionMNIST

 3.3

MNIST的MDUNet和D²NN在上下左右对四个方向不同程度偏差的盲推理精度比较

(1)尽管D-UMs中的衍射层被偏移,但MDUNet在一定范围内具有较高的鲁棒性。

(2)当偏移量继续增大时,精度将保持相对稳定,这是因为MDUNet网络在建立模型时考虑了对齐鲁棒性。

3.4 三种不同采样深度下测试层与相邻层之间的自相关和互相关曲线

与相邻层的自相关曲线和互相关曲线。
(a)~(c) MDUNet:(a) 7层:第4层,(b) 9层:第5层,(c) 11层:第6层,(d) D²NN: 9层:第5层

(1)相关曲线在每个周期内呈线性变化

(2)自相关变化周期越大,衍射层移位导致的测试精度下降越慢

(3)当位错发生在周期边界时,自相关和互相关会发生突变,导致测试精度发生较大变化

(4)D²NN衍射层仅在单像素范围内具有空间相关性

3.5集成学习构建光电混合模型

进一步结合不同采样模型的优点,在全光神经网络MDUNet之后增加了加权投票。对5/7/9/11层的MDUNet测试结果根据测试精度进行加权投票,构建光电混合模型EL-MDUNet。

光电混合模型(EL-MDUNet)

 不同模型的权重分布采用以下定义:

式中,i为模型序号,K为权重调整系数, Acci为第 i 个模型的检验精度。

实验结果:将MNIST和Fashion-MNIST的盲检验准确率分别提高到99.06%和89.86%。

集成学习模型推理结果的混淆矩阵
(a): MNIST, (b): Fashion-MNIST。

 4、Conclusion

(1)提出了一种具有深度扩展和对齐鲁棒性的全光神经网络结构MDUNet。

(2)成功在D²NN中引入了下采样和上采样模块,直接提高了层与层之间的对齐鲁棒性,从模型构建的角度降低了对神经元数量的要求。

(3)该网络能够有效地提取和融合不同尺度的目标特征,并通过采样操作增强了调制层的空间相关性。

(4)通过引入跳跃式连接,融合相应尺度的特征,可以有效地扩大网络深度。

  • 17
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值