- 博客(31)
- 收藏
- 关注
原创 AI for Good Webinar:Towards AI-native 6G networks
国际电联AI for Good 2023峰会之探索AI内生的6G网络研讨会将于11月30日16:00-18:00于ITU AI for Good平台线上直播,欢迎扫码报名参加,谢谢!
2023-11-29 09:47:09 377
原创 中兴通讯主办的以“探索、启发、共振”为主题的ChatGPT发展与挑战高端论坛于南京顺利举办...
2023年3月16日,由中兴通讯主办的以“探索、启发、共振”为主题的ChatGPT发展与挑战高端论坛于南京顺利举办。
2023-09-05 09:02:53 407
原创 一种轻量、无需训练的神经网络结构搜索算法ZenNAS
论文使用Zen-Score搜索出的深度神经网络,在ImageNet数据集上获得最高83.6%的精度,同时模型的推理时间也被约束在特定范围内。
2023-08-10 10:22:47 225
原创 神经网络模型量化综述(上)
作为通用神经网络模型优化方法之一,模型量化可以减小深度神经网络模型的尺寸大小和模型推理时间,其适用于绝大多数模型和不同的硬件设备。
2023-08-09 16:47:03 518
原创 模型优化算法——AutoSlim
AutoSlim是一种one-shot模型优化方法,只要给定网络类型(如MobileNet-v1,ResNet50),给定限制条件(如Flops、latency等),就能自动决定每一层的通道数。
2023-08-09 16:08:10 168
原创 面向ASIC设备的编译器框架:TVM or MLIR?
目前TVM和MLIR都没有完全支持定制DSA的设计、上层编译的成熟路线,也就是最终选型的结果对实际工程开发的影响不会很大,都需要开发者/团队深度定制大量代码。...
2023-08-09 15:57:12 658
原创 基于oneDNN的ResNet50推理速度优化
第二章中介绍的推理加速技术对于ResNet50的推理速度均有很大的提升,并且在以上技术全部实施后,其推理速度与OpenVINO已基本一致。
2023-08-09 15:39:13 477
原创 YOLOv5 在 OpenVINO 上的优化实践
研究了YOLOv5模型的知识蒸馏以及在IntelCPU上使用OpenVINO进行部署优化实践。采用知识蒸馏和量化的方法,在不损失精度的条件下实现了 该模型在 OpenVINO 上2倍的推理速度提升。...
2023-08-09 15:03:06 190
原创 Tiramisu:一种基于Polyheral的深度学习模型编译器
Tiramisu是一种4层IR结构的,基于Polyhedral模型的编译器,相比基于区间分析的Halide具有更好的领域适用性。
2023-08-09 14:45:39 170
原创 Stan:一种统计学建模语言
Stan 是一种用于统计建模和高性能统计计算的先进平台。Stan已经在社会、生物和物理科学、工程和商业领域被应用于统计建模、数据分析和预测。
2023-08-09 11:12:45 335
原创 Prophet:一种大规模时间序列预测模型
本文从数学原理出发介绍了facebook开源的Prophet模型,希望能更好的帮助大家理解并使用。参考prophet官方网站:https://facebook.github.io/prophet/
2023-08-09 10:54:16 365
原创 实时性能评估框架nn-Meter解读
本文针对 nn-Meter 框架的关键技术点和可扩展注册接口进行了梳理分析,受限于笔者知识水平,文中可能会存在某些理解身上的偏差,欢迎各位大佬进行交流,共同进步。...
2023-07-24 17:02:01 212
原创 MNN推理引擎框架简介
MNN(Mobile Neural Network)一个轻量级的深度神经网络推理引擎,在端侧加载深度神经网络模型进行推理预测。
2023-07-24 16:43:04 1397
原创 MLIR - 一种新的IR表示和编译器框架
MLIR(Multi-Level Intermediate Representation)是一种新型的用于构建可复用和可扩展的编译器的框架。
2023-07-24 16:26:45 220
原创 Halide代码优化思想简述
Halide是一种编程语言,主要在图片处理和矩阵计算时具有方便快捷高性能的特点。它不是一种独立语言,而是基于C++的DSL(Domain Specified Language),主要应用在算法的底层加...
2023-07-24 15:57:47 249
原创 Facebook data-efficient transformer模型介绍
我们介绍了一种用于图像transformer的模型,由于改进了训练,特别是引入蒸馏策略,因此不需要非常大量的数据进行训练。
2023-07-24 15:47:16 196
原创 BOLT:弥合自动调优和硬件原生性能之间的差距
本文介绍的BOLT基于TVM框架,在GPU平台上进行了进一步的图优化和算子优化,最终将常见的卷积神经网络模型的推理速度提升了2.5倍,搜索时间大大缩减,可以实现20分钟内完成自动搜索调优。...
2023-07-24 15:36:33 222
原创 Ansor: 为深度学习生成高性能张量程序
Ansor是基于分层搜索空间构建的,该空间将高级结构和低级细节解耦。Ansor自动构造计算图的搜索空间,Ansor从空间中采样完整的程序,并对完整的程序进行微调,避免了对不完整程序的粗略估计。...
2023-07-24 15:22:34 213
原创 Adlik在深度学习异构计算上的实践
Adlik首先在架构上支持多类异构硬件和计算引擎,也在FPGA异构计算上完成了一些技术实践,后续将继续进行特定硬件上的计算优化技术的研究,来加速推动AI模型的工程应用。...
2023-07-24 14:53:08 198
原创 训练后量化(PTQ) 工作流理解
首先介绍了 PTQ 的定义、量化的数学定义即量化公式、量化模拟、range setting,最后介绍了 PTQ 的整体技术流程。
2023-07-24 10:59:02 319
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人