牛津团队开发存内光计算新方法，将数据处理并行度提升25倍，极大助力AI算法的高效运行

flowingPX

已于 2023-12-13 11:17:04 修改

阅读量213

点赞数 3

文章标签：人工智能神经网络边缘计算 AIGC 团队开发算法科技

于 2023-12-13 10:53:25 首次发布

原文链接：https://mp.weixin.qq.com/s/BoXFnHXKqLSlQM14MMXTew

版权

文章来源： DeepTech深科技（转侵删）

继 OpenAI 高层变动之后，新的大事件再次爆出。日前，外媒报道称 OpenAI 大额芯片采购意向书已被曝光，OpenAI 或将从由其 CEO 山姆·奥特曼（Sam Altman）投资的人工智能芯片公司 Rain AI 购买芯片。

事实上，纵观人工智能的发展史，它的兴衰与处理器的计算能力密不可分。得益于互补金属氧化物半导体（CMOS，Complementary Metal Oxide Semiconductor）处理器的快速发展，人工智能所需的大数据计算能力得以实现。

按照最近的趋势，人工智能所需要的算力每隔 3.5 个月就会增长一倍。而基于摩尔定律，CMOS 处理器的算力每 18 个月才能增长一倍。

面对呈指数级爆炸式增长的人工智能大模型的需求，传统的 CMOS 处理器显得无能无力。在这种情况之下，许多新的计算框架被提出，比如小芯片技术、量子计算、存内计算、光计算。

牛津大学博士后董博维所在的课题组，是目前全球唯一实现存内光计算的实验室。该团队由哈里什·巴斯卡兰（Harish Bhaskaran）院士负责，主要研究存内光计算（即存内计算与光计算的结合）。

图 | 董博维（来源：董博维）

在传统的冯诺依曼架构之中，由于大量数据在内存和处理器之间传递，故会带来能耗问题和延时问题。而在存内计算之中，内存和处理器在空间上可以重叠放置，从而很好地解决上述问题。

对于光计算来说，它能很好地利用光的高速、低能耗、高并行度等优势，从而解决电计算的对应瓶颈。

要想实现存内光计算，光存储器是一个必不可少的组件。光存储器能够以非易失性的方式，改变功能材料的光学特性，即改变材料的折射率或吸收率，从而实现非易失性光存储。

2015 年，董博维所在团队曾使用锗锑碲材料首次实现硅光芯片上可控非易失性光存储[1]，并于 2019 年实现存内光矩阵的运算。

对于人工智能的数据处理来说，高并行度可谓至关重要。传统的中央处理器 CPU（Central Processing Unit），采用的是线性处理的方式，即在单位时间之内执行一次运算。

图像处理器 GPU（graphics processing unit）则采用并行处理方式，在单位时间之内可以并行处理多次运算。这也正是 GPU 被广泛用于人工智能产业的原因。

高并行度，是光的一大优势。同时，由于光具备不同的自由度，因此可被用于提高其处理并行度，比如不同的偏振、不同的空间模式、不同的波长等。

由于光波导中常用的偏振模式，仅有横电模和横磁模这两种。而常用的空间模式，只有一阶模至四阶模这几种。

过去，人们认为采取波分复用的方式，可以提供上限最高的并行度。直到 2021 年，董博维所在课题组通过利用光的波分复用特性、以及存内光矩阵运算，实现了并行度为 4 的存内光矩阵运算，并将其成功用于高速图像卷积处理应用中[3]。

一个芯片能同时处理 100 张心电图

而在最近，该团队发现波分复用所提供的并行度提升并不是存内光计算的上限。通过光电集成，可以很方便地将射频自由度引入存内光计算，实现数个量级的计算并行度提升[4]。

（来源：Nature Photonics）

研究中，通过同时使用 2 个波长的波分复用、以及复用 50 个射频频率的射频，他们展示了具有值为 100 的并行存内卷积系统，比此前的 4 个并行度提高了 25 倍。

假设波分复用能够提供值为 16 的并行度，射频复用可以提供值为 150 的并行度，系统并行度将达到 16×150=2400，那么单一芯片的计算能力能达到 2400 个芯片同时运行的计算能力。而仅仅使用光系统或电系统，根本无法达到这样的高并行度功能。

需要指出的是，将射频自由度引入光计算领域，是一个既创新又有效的方法。因为提高处理并行度之后，不仅仅对光计算大有裨益，同时还可用于光通信、光传感等领域。

此外，该团队采用了光电混合芯片的设计方式，其中的可控光学交叉阵列设计十分巧妙，具有很强的拓展性。当把运算单元在二维平内内平铺展开，即可实现大存内光计算矩阵。

为了展示高并行度的优势，课题组在实验中仅使用一个芯片，就能对 100 张心电图同时进行卷积处理，在患者死亡风险判别上实现了 93.5% 的准确率。

理论上，通过并行使用更多的光波长与射频频率，利用这一方法将能在单一芯片中，针对 1000 多个数据流进行同时处理，从而能在边缘云计算场景中发挥重要作用。

在展示案例之中，他们使用的大多数模块都是商用模块，比如芯片级射频收发模块和硅光芯片。因此，通过大规模整合这些商用模块，此次提出的方法有望在短期内带来实际应用。

（来源：Nature Photonics）

从“没前途”到“Just do it”

如前所述，董博维所在团队在过往发了多篇重要论文。而此次课题则始于他们对于其他论文的学习。

2022 年初，董博维和同事阅读了南京大学团队的一篇论文（下称“南大论文”）。在南大论文之中，作者通过在电存内计算交叉阵列中引入射频自由度，实现了并行度为 16 的电存内计算[5]。

董博维表示：“我在组会上报告南大论文时，课题组负责人 Harish Bhaskaran 院士的第一反应是：‘那么光计算岂不是没有前途了？’我回答：‘是的。’”

因为在南大论文之中，作者所使用的方法类似于在电计算中实现“光学优势-波分复用”。

简而言之，南大论文所展示的方法，并不是对光计算提出了挑战，而是指出了进一步提升光计算能力的思路。

经过两周的思考和讨论，董博维等人做出了如下假设：南大论文所展示的射频自由度提高计算并行度的方法，能否直接导入到光计算中？

直觉上，他们认为这是可能的，因为微波光子学（Microwave photonics）领域涉及到射频与光子的集成应用，二者之间存在一定的联系。

董博维继续说道：“某个中午 Harish 来办公室喊我们一起吃午饭，在微波炉热饭的几分钟时间里，我和他在办公室门上的白板简要讨论了我们的设想，以及可能面临的挑战和不确定性。Harish 听完后只是双目盯着我，说了句‘Just do it’。”

（来源：Nature Photonics）

同时，董博维和同事也想到了很多实际问题。比如，射频信号在光波导中能否以低损耗模式进行传播？多个射频信号复用之后在波导中能否保持独立？

探测端能否方便地对光信号和射频信号进行同时解复用，从而还原不同信道的信息？

针对这些疑惑他们采取先实验、后分析的方法。一般来说在验证可行性之前，要进行复杂的硅光芯片制备、表征和优化。

为了避免这一繁琐流程，他们先是在光纤系统中进行初步探究，快速验证了上述方法在光学系统中的可行性，并分析背后的原因所在。

由于射频频率与光学频率的巨大差异，二者的频谱相互独立不发生串扰。而且将射频加载到光信号这一操作，等于把射频信号移频到光频率附近，因此混合信号可以在光波导中低损耗传播。

随后，他们开始进行硅光芯片的制备与表征，在硅光芯片中加以验证，并进行系统级的测试。

结果发现射频自由度能被非常方便地引入光计算体系之中，并能和波分复用实现完美结合，从而可以大幅提升系统并行度。

同时，由于能够同时利用射频自由度和波长自由度，因此光计算依然能够发挥一定的优势。研究进行到这里之后，他们开始撰写论文并投稿。

最终，相关论文以《利用具有连续时间数据的光子张量核进行高维处理》（Higher-dimensional processing using a photonic tensor core with continuous-time data）为题发在 Nature Photonics，董博维是第一作者，哈里什·巴斯卡兰（Harish Bhaskaran）院士担任通讯作者。

图 | 相关论文（来源：Nature Photonics）

未来，他们将继续拓展存内光计算芯片的输入、输出规模，让其能够满足更多的应用场景。

具体来说，董博维和同事在此次论文中所展示的存内光计算芯片，具有三个输出和三个输出，等效于一个 3×3 的权重矩阵，输入数据为三维向量。

因此，对于维度较高的输入数据，输入输出规模必须增加。同时，分析发现光计算芯片的优势，只有在大规模计算中才能显示得更为明显。

而拓展输入输出规模不仅仅是一个工程问题，也会涉及到许多科学问题，尤其是如何实现多路光信号的无损相加。

值得指出的是，多路不相干光信号的无损相加，理论上在互易光学中是无解的，因此需要借助新的科学突破来实现这一目标。

另外，他们还将实现更高效的光电集成。在本次工作中，课题组只是验证通过引入射频自由度来提高光计算并行度的可行性，然而当前不少光电器件采用的依然是片外独立器件。

因此在接下来的工作中，他们非常期待可以将光调制器、光电探测器、解（复用）器件，甚至是光源都集成到单个芯片中，实现高集成度系统。

此外，本次研究中他们利用了波长自由度和射频自由度，但是光还具有其它自由度，比如常见的偏振自由度和空间模式自由度，基于此课题组还将通过利用更多光自由度，进一步地提高系统并行性。

（来源：Nature Photonics）

力争开发一款光电混合计算原型机

另据悉，董博维能取得今天的成果，也和他始终保持目标感有关。其本科毕业于新加坡南洋理工大学，在那里他获得了数学和物理的双学位。

读博期间，他希望做一些应用性更强的工作，故来到新加坡国立大学综合科学与工程研究生院，主要研究中红外光波导及其传感应用。

博士期间，他读到 MIT 博士校友沈亦晨的论文[6]，这篇论文指出光子是深度学习的未来（此前沈亦晨已经基于论文成果创办了芯片公司曦智科技）。

这让董博维大受鼓舞，并将上述方向定为自己以后的研究重点。后来，他在新加坡国立大学做了两年博后，并有意识地将研究重心从材料平台开发和器件设计，转到系统应用之中。自那时起，他便开始深入研究光通信系统的应用。

2021 年，董博维加入英国皇家工程院院士 Harish Bhaskaran 在牛津大学的实验室，主要研究存内光计算。

“得益于在牛津大学两年在光计算方面积累的经验，以及新加坡政府和 A*STAR 对光计算的重视和支持，我获得了 A*STAR 青年成就奖，得到了等价于 500 万人民币的启动经费支持光计算的相关的工作。”其表示。

也就是说不久之后，他即将入职新加坡科技研究局微电子研究院（A*STAR）。短期之内，他仍将聚焦于研究存内光计算，旨在扩展存内光计算芯片的规模和尺寸，解决高效光电互联的问题，力争开发出一款光电混合计算原型机，并将其投入实际应用之中。

参考资料：

1.Nature Photonics 2015, https://doi.org/10.1038/nphoton.2015.182

2.Science Advances 2019, DOI: 10.1126/sciadv.aau5759

3.Nature 2021, https://doi.org/10.1038/s41586-020-03070-1

4.Nature Photonics 2023, https://doi.org/10.1038/s41566-023-01313-x

5.Nature Nanotechnology 2021, https://doi.org/10.1038/s41565-021-00943-y

6.Nature Photonics 2017, https://doi.org/10.1038/nphoton.2017.93

排版：刘雅坤

flowingPX

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
牛津团队开发存内光计算新方法，将数据处理并行度提升25倍，极大助力AI算法的高效运行

短期之内，他仍将聚焦于研究存内光计算，旨在扩展存内光计算芯片的规模和尺寸，解决高效光电互联的问题，力争开发出一款光电混合计算原型机，并将其投入实际应用之中。“得益于在牛津大学两年在光计算方面积累的经验，以及新加坡政府和 A*STAR 对光计算的重视和支持，我获得了 A*STAR 青年成就奖，得到了等价于 500 万人民币的启动经费支持光计算的相关的工作。理论上，通过并行使用更多的光波长与射频频率，利用这一方法将能在单一芯片中，针对 1000 多个数据流进行同时处理，从而能在边缘云计算场景中发挥重要作用。
复制链接

扫一扫