• 博客(126)
  • 收藏
  • 关注

原创 算能竞赛硬件答疑与常见问题

若您认为所开发的模型性能卓越、功能强大,且对其应用有明确需求,但遇到模型中包含不受支持的算子,建议首先尝试替换这些算子为受支持的等效算子。如果替换算子后模型的精度或功能受到显著影响,您可以考虑查阅相关文档,并在TPU-MLIR框架中实现自定义算子,以便完成模型的有效部署。请参见以下链接:TPU-MLIR开发参考手册 / 用户自定义算子SAIL (Sophon Artificial Intelligent Library) 是 sophon-sail 中的核心模块。

2024-08-08 12:00:00 1045

原创 实操: 如何在AirBox上跑Stable Diffusion 3

以下文章来源于Radxa ,作者瑞莎是一种多模态扩散变换器 (MMDiT) 文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面具有显著提升的性能。目前瑞莎团队使用 Stable Diffusion 3 Medium 开源模型,通过 SOPHON SDK 移植到 SG2300X 处理器系列产品上进行本地 TPU 硬件加速推理,实现在 radxa Airbox 上离线快速生成特色风格且带清晰文本的图片。

2024-08-06 09:58:27 1226

原创 在 Duo S 上使用 TDL SDK 高效部署人脸检测模型

TDL SDK 是一款集成算法开发包,提供了便捷的编程接口,使开发者们能够更快、高效地将各种深度学习技术应用于自己的产品和服务中。无论开发者是否是深度学习领域的专家,有了TDL SDK作为助手,都能轻松构建智能应用。本文我们将在 Duo S 上使用 TDL SDK 高效部署人脸检测模型

2024-08-06 09:58:08 729

原创 RISC-V竞赛|第二届 RISC-V 软件移植及优化锦标赛报名正式开始!

为了推动 RISC-V 软件生态更快地发展,吸引更多的开发者加入 RISC-V 生态中来,算能作为RISC-V生态的领先企业,并作为竞赛赛题合作方,与联合发起活动。

2024-08-06 09:57:22 811

原创 太强了!Github大佬把NuttX移植到Duo-S上了!

Github大佬把NuttX移植到Duo-S上了!!Milk-V DuoS 是一款搭载SG2000 主控,拥有512MB内存和丰富 IO 接口的紧凑型嵌入式开发平台。它集成了 WI-FI 6/BT 5 无线功能,并配备 USB 2.0 HOST 接口和 100Mbps 以太网端口,方便用户使用。它支持双摄像头(2x MIPI CSI 2 通道)和 MIPI 视频输出(MIPI DSI 4 通道),可实现多种应用。

2024-08-06 09:57:11 715

原创 TPU编程竞赛系列|2024中国国际大学生创新大赛产业命题赛道,算能11项命题入选!

近日,(原“互联网+”大赛)产业命题正式公布,算能十一项命题成功入选。本次算能赛题主要聚焦于国产TPU处理器的边缘系统开发和RISC-V架构处理器的系统设计。大赛提供了多款开发板以供参赛者使用和选择,我们诚挚邀请广大开发者前来挑战!

2024-08-06 09:57:02 279

原创 TPU编程竞赛系列|第八届集创赛“算能杯“报名开启!

CV1800B/SG200x 系列开发板是基于算丰CV1800B/SG200x处理器所设计的开源硬件,能够同时运行基于LINUX和RTOS的操作系统,为专业人士、工业OEM企业、物联网爱好者、业余爱好者、DIYers和创作者提供了一个可靠、低成本且极具功能的平台。我们期待参赛者们能够充分利用TPU算力,推动边缘设备智能化应用的创新和发展,在兼备边 缘系统创新性、实用性和复杂性的同时,鼓励将大语言模型、边缘计算等新兴技术应用于不同场景和垂直领域。可广泛用于教育、文旅、工业、园区、物联设备等。

2024-01-19 20:51:39 1322

原创 milkv-duo cvi-mmf 硬件加速 JPG 解码性能测试

本文是基于 nihui 老师的 opencv-mobile 对其支持 milkv-duo cvi-mmf 硬件加速 JPG 解码的测试。opencv-mobile 现已支持 milkv-duo cvi-mmf 硬件加速 JPG 解码仅供学习交流使用,侵删!opencv-mobile highgui 模块在运行时动态加载 cvi 库,JPG 硬件解码无需修改代码,与自动支持支持EXIF自动旋转,支持直接解码为grayscale。

2024-01-19 20:43:24 1039

原创 【2023 CCF 大数据与计算智能大赛】基于TPU平台实现超分辨率重建模型部署 基于Real-ESRGAN的TPU超分模型部署

也就是说,这个下采样的模糊核是预先定义好的。模型部署使用的是算能提供的C++版本的 SophonSDK中的bmcv等加速库进行图像加载、数据前处理、模型推理、数据后处理等操作。SophonSDK是算能科技基于其自主研发的 AI芯片所定制的深度学习 SDK,涵盖了神经网络推理阶段所需的模型优化、高效运行支持等能力,为深度学习应用开发和部署提供易用、高效的全栈式解决方案。模型部署使用的是算能提供的C++版本的 SophonSDK中的bmcv等加速库进行图像加载、数据前处理、模型推理、数据后处理等操作[3]。

2024-01-05 16:13:43 1425

原创 【2023 CCF 大数据与计算智能大赛】基于TPU平台实现超分辨率重建模型部署 基于QuickRNet的TPU超分模型部署

为了结合1.2.1和1.2.2的优缺点,本方案提出使用膨胀推理多推少取的方案,将原始图像四周填充10个像素,采用192*192的滑窗,按照182的步长进行滑动,其中10为超参数。相比于1.2.1的方案,有重叠区域的分块类似的但是采用滑窗步距为96,这种方案可以有效的减少1.2.1重叠区域带来的问题,但是如何融合重叠区域的结果是比较大的问题,采用均值的方案会让重叠区域采样的效果变得平滑,但是降低了锐化的效果,并且不同的滑窗步距会影响niqe值和推理的速度。

2024-01-05 16:02:10 1233

原创 【2023 CCF 大数据与计算智能大赛】基于TPU平台实现超分辨率重建模型部署 基于FSRCNN的TPU平台超分辨率模型部署方案

我们比较GSR与CSR和GSR与ESR的t检验p值,相较后者,GSR与CSR的p值较大,这也就意味着,从统计平均的意义而言,GSR与CSR之间的统计特性更加接近。受此启发,对于增大图像分辨率的任务,直接通过插值算法放大的质量通常比使用超分辨率模型放大的效果更差,因此我们可以仅使用超分辨率模型放大图像中对视觉效果影响更大的一部分,从而在时间和效果之间达到更好的平衡。实验结果表明,我们的方法在牺牲一部分图像质量评估指标NIQE的情况下,显著减少了处理时间,在赛题给定的评价指标上具有较高的得分。

2023-12-28 16:48:15 1534

原创 【2023 CCF 大数据与计算智能大赛】基于TPU平台实现超分辨率重建模型部署 基于预训练ESPCN的轻量化图像超分辨率模型TPU部署方案

考虑到TPU设备的计算性能相对较低,我们主要调研了轻量化的图像和视频超分辨率网络,并先后尝试了Real-ESRGAN[1]、NinaSR[4]、CARN、FSRCNN、ESPCN[2]等多种网络结构,最后选定了使用ESPCN。模型编译过程中需要确定输入张量的尺寸,虽然TPU文档里指出支持动态大小输入,但可用的SDK并未提供此功能,因此为了应对尺寸各异的输入图像,做统一尺寸的图像分块是必要的步骤。分块大小直接决定了分块数量,间接决定了模型处理处理的事件,因此合适的分块大小选取可以节省不必要的额外计算开销。

2023-12-28 16:21:07 1427

原创 拥抱开源生态,算能携手软件所 PLCT 实验室联合举办 RISC-V 软件移植优化锦标赛

RISC-V已在MCU/IoT领域出货数十亿,正向桌面计算、HPC、AI、数据中心等大算力领域挑战。为了推动RISC-V生态迅速发展,算能作为RISC-V生态的领先企业,与RISC-V 中国社区、中科院软件所PLCT实验室联合发起“RISC-V软件移植及优化锦标赛”活动。算能致力于成为全球领先的通用算力提供商,专注于深度学习、RISC-V 处理器等算力产品的研发和推广应用,遵循全面开源开放的生态理念 ,为互联网、城市运营、智算中心、泛安防、智能制造、AIGC等应用场景提供算力产品及整体解决方案。

2023-11-17 14:16:25 319

转载 Stable Diffusion大模型巅峰对决,第五届全球校园人工智能算法精英赛正式启动!

近日,2023第五届全球校园人工智能算法精英赛正式开启报名。作为赛题合作方,清湛联合算丰承办了“算法专项赛”赛道,提供赛题。,同时为参赛选手提供了丰富的云端TPU资源及Airbox算力硬件。「面向Stable Diffusion的图像提示语优化」

2023-11-08 14:34:50 761 1

转载 Duo cv1800b first time 搭建C编译及远程gdb环境

使用Duo 搭建C编译及远程gdb环境教程。

2023-11-06 19:06:17 496

转载 stb_image jpg解码 RVV优化和在 milkv-duo 上的测试

来源:转载自https://forum.sophgo.com/t/stb-image-jpg-rvv-milkv-duo/240,原作者stb_image jpg解码 RVV优化和在 milkv-duo 上的测试。

2023-10-12 13:34:45 250

原创 TPU编程竞赛|算丰助力2023 CCF大数据与计算智能大赛!

Stable Diffusion模型以扩散过程为基础,能够精准捕捉图像细节和纹理,开创了图像生成领域的新可能性。但直接利用模型生成高分辨率图像的效率较低,通常需要将其与超分辨率重构模型结合。因此,借助TPU平台部署高效的超分辨率模型,有利于进一步挖掘Stable Diffusion模型潜力,提升高分辨率图像生成效率。

2023-10-09 10:59:52 377

原创 TPU编程竞赛|Stable Diffusion大模型巅峰对决,第五届全球校园人工智能算法精英赛正式启动!

TPU编程竞赛,提供如何在TPU部署Demo关注算丰SOPHON,参与更多赛事。

2023-10-09 10:30:03 2664

原创 TPU-MLIR——实现Chatglm2-6B大模型移植部署

本项目实现BM1684X部署语言大模型。通过编译器将模型转换成bmodel,并采用c++代码将其部署到BM1684X的PCIE环境,或者SoC环境。

2023-09-21 00:00:00 558

原创 深度学习编译器关键组件

为了避免这种情况,DL编译器采用了两种方法来实现硬件相关的优化:1)在LLVM的上层IR(例如,基于Halide的IR和基于Polyhedral的IR)中执行特定于目标的循环变换;TVM将Halide IR改进为符号IR,它消除了对LLVM的依赖,重构了项目模块的结构和Halide的IR设计,追求更好的组织以及对graph-IR和前端语言(如Python)的可访问性。事实上,相同的操作在不同的数据布局中的性能是不同的,并且最佳的布局在不同的硬件上也是不同的。因此,DCE和CSE是在其他图优化之后应用的。

2023-09-14 00:00:00 369

原创 实现CenterNet图像分割算法模型的转换和量化(SDK0301-转ONNX编译)

如果模型是图片输入, 在转模型之前我们需要了解模型的预处理。如果模型用预处理后的npz文件做输入, 则不需要考虑预处理。如果模型是图片输入, 在转模型之前我们需要了解模型的预处理。然后用校准表, 生成对称或非对称bmodel。如果对称符合需求, 一般不建议用非对称, 因为 非对称的性能会略差于对称模型。如果对称符合需求, 一般不建议用非对称, 因为 非对称的性能会略差于对称模型。输出的性能结果, 来估算模型最大的fps, 来选择合适的模型。输出的性能结果, 来估算模型最大的fps, 来选择合适的模型。

2023-09-07 00:00:00 411

原创 Milk-V Duo开发板实战——基于MobileNetV2的的图像分类

本教程介绍使用工具链对模型进行转换,生成MLIR以及MLIR量化成INT8模型,并在开发板上进行部署测试,完成图像分类任务,涉及以下步骤:搭载的是,该芯片支持和,目前不支持TFLite模型量化数据类型方面,目前支持以下对此3个步骤展开详细介绍。

2023-08-31 00:00:00 1174

原创 ResNet18云空间部署

转成mlir文件后, 会生成一个 ${model_name}_in_f32.npz 文件, 该文件是模型的输入文件。编译完成后, 会生成名为 ${model_name}_1684x_f32.bmodel 的文件。指定模型定义文件, 比如`.onnx`或`.tflite`或`.prototxt`文件。指定输入的shape, 例如[[1,3,640,640]];如果不指定, 则resize成模。指定输出的名称, 如果不指定, 则用模型的输出;图片每个通道的比值, 默认为1.0,1.0,1.0。

2023-08-24 21:42:57 363

原创 Sophnet介绍及云空间申请使用

SOPHNET 平台是基于SOPHON智算产品打造的云边统一的AI服务平台,是人工智能算力中心的基础设施,平台通过开放AI训练和AI推理两大核心能力,赋能千行百业。

2023-08-17 14:06:19 396 1

原创 论文讲解——TPU-MLIR: A Compiler For TPU Using MLIR

对经过优化的TOP MLIR进行多次前向推理,获取每个中间Tensor的数据,并计算它们的统计信息,通过KL方法得到初步的阈值,然后使用误差/余弦相似度方式再微调阈值,是的INT8的计算结果和FP32的结果尽量相似。通过深层次的依赖关系来进行更为合理的切割:越深依赖关系越复杂,不限于一个op层,不是在一层conv上做切割,而是计算一个conv输出被下一个conv利用的相关性,做整个group的相关性的切割,用计算来代替搬运。TPU Dialect是用于表示TPU芯片的Kernel库,与具体的设备有关。

2023-08-10 09:00:00 754

原创 Swintransformer模型的优化

自从Transformer在NLP任务上取得突破性的进展之后,业内一直尝试着把Transformer用于CV领域。之前的若干尝试都是将Transformer用在了图像分类领域,但这些方法都面临两个非常严峻的挑战,一是多尺度问题,二是计算复杂度的问题。基于这两个挑战,swint的作者提出了一种层级式提取的Transformer,并通过移动窗口的方式来学习特征。在窗口内计算自注意力可以带来更高的效率;同时通过移动的操作,让相邻的窗口之间有了交互,变相达到了一种全局建模的能力,进而解决了上面两个问题。

2023-08-07 11:48:26 1284

原创 TPU-NNTC 编译部署LPRNet 车牌识别算法

LPRNet(License Plate Recognition via Deep Neural Networks),是一种轻量级卷积神经网络,可实现无需进行字符分割的端到端车牌识别。LPRNet不需要字符预先分割,车牌识别的准确率高、算法实时性强、支持可变长字符车牌识别。对于字符差异比较大的各国不同车牌均能够端到端进行训练。LPRNet是第一个没有使用RNN的实时轻量级OCR算法,能够在各种设备上运行,包括嵌入式设备。

2023-08-03 09:30:00 464

原创 TPU编程竞赛系列 | 创客北京2023·算能AI+边缘计算专项赛开始啦!

为助力北京市高精尖产业发展,构建大中小企业相互依存、相互促进的企业发展生态,打造北京市有影响力的双创服务品牌赛事,

2023-08-03 01:09:59 353

原创 TPU-MLIR编译部署算法

处理后的PP-OCR项目文件将被拷贝至 SE5微服务器 上进行推理测试。

2023-07-27 13:06:28 705 2

原创 DUO开发板实战——开发环境初始化

Milk-V Duo开发板(图1)是一款基于CV1800B芯片(RISC-V架构,C906@1Ghz + C906@700MHz)的超紧凑型嵌入式开发平台。它支持64MB RAM,可通过扩展实现10/100Mbps以太网,可以运行Linux和RTOS系统,为专业人士、工业ODM、AIoT爱好者、DIY爱好者和创作者提供可靠、低成本、高性能的平台。双RV64核心,最高1GHz64MB内存通过可选的附加板提供10/100Mbps以太网技术支持同时运行Linux和RTOS。

2023-07-13 09:00:00 1288 1

原创 TPU编程竞赛委员会开始招募啦!

AI 应用挑战赛” 、“AI 算法创新赛” 、“ 算子打榜赛” 下又设有丰富的赛事活动:“ 互联网+" 大学生创新创业大赛- 算能赛题、全国大学生集成电路创新创业大赛- 算能杯、CCF 大数据与计算智能大赛- 算能赛道、社会计算创新竞赛、第十八届中国研究生电子设计大赛- 算能杯、CAAI-BDSC 2023 社会计算创新大赛等。5 、社交网络的扩展:竞赛的举办过程需要与各方参与者和合作伙伴建立联系和互动,与来自不同背景和领域的人们建立合作关系和长期的人脉联系。1 、撰写赛题任务书,包括中英版本。

2023-07-12 17:33:22 199

原创 TPU编程竞赛系列|第九届 “互联网+”大学生创新创业大赛产业命题赛道,算能6项命题入选!

近日,第九届中国国际“互联网+”大学生创新创业大赛产业命题正式公布,算能提交的六项企业命题成功入选正式赛题。算能六项赛题主要围绕国产TPU芯片的边缘计算系统和RISC-V架构处理器来设计,且为参赛选手提供了超强算力开发板等硬件资源,欢迎各大高校学生们积极报名参与!

2023-07-12 14:32:14 559

转载 【转载】MilkV Duo使用TPU推理pytorch模型

架构的MilkV Duo开发板,首先这个开发板价格很便宜才35块,并且支持TPU模型推理,视频硬件编码,支持MIPI 2M的摄像头,这个性能确实震惊到我了,因此来看MilkV这个产品应该是和RP2040的开发板对标的。我在官方的cv180x模型例子里面没有看到对yolo系列模型的直接支持,但是官方例子里面却有yolo系列的二进制例程文件,而且在cv180x班子上也能跑得通,也希望TPU官方能把对yolo系列的例子补全。(ps:需要挂载到docker镜像的/work目录下)

2023-07-11 21:29:45 839

原创 TPU-MLIR实战——ResNet18部署

model_resnet18 目录中。将后处理融合到模型中,指定后处理类型, 比如。model_transform.py参数表。并把模型文件和图片文件都 放入。模型参数,输入模型的位置,可以是。指定需要排除验证的网络层的名称。6 MLIR转INT8模型。5 MLIR转F32模型。该文件是模型的输入文件。对环境变量的修改内容为。4 ONNX转MLIR。介绍如何编译迁移一个。编译量化结果存放位置。指定输入文件用于验证。指定验证后的输出文件。

2023-07-06 09:00:00 472

原创 深度学习编译器汇总

为了解决DL库和工具的缺点,减轻手动优化每个DL硬件上的DL模型的负担,DL社区正在促进特定领域的编译器的发展。此外,现有的DL编译器还利用了来自通用编译器(例如LLVM)的成熟工具链,这在不同的硬件架构中提供了更好的可移植性。计算图优化结合了通用编译器的优化技术和DL特有的优化技术,减少了计算图的冗余,提高了计算效率。在工业界和学术界的不断努力下,一些流行的DL框架被提出,如TensorFlow、PyTorch、MXNet和CNTK,以简化各种DL模型的实现。通常,IR是程序的抽象,用于程序优化。

2023-06-29 10:45:00 782

原创 基于YOLACT的目标跟踪算法移植与测试

1.下载SOPHON SDK开发包2.配置Docker容器开发环境后文假定用户已经处于docker里面的/workspace目录。

2023-06-22 09:30:00 484

原创 TPU-MLIR的环境搭建和使用

而归一化计算支持直接将未进行预处理的图像数据(即unsigned int8格式的数据)做归一化处理。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PDnKL5Ww-1686737642332)(./assets/image-20230609113639428.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aJx7KkDD-1686737642332)(./assets/image-20230609113936749.png)]

2023-06-14 19:51:25 2542 3

原创 基于Qt的嵌入式GUI开发指南(一)

Qt 是一个跨平台的应用程序开发框架,用于创建高性能、可扩展和用户友好的图形用户界面(GUI)应用程序。它提供了丰富的工具、库和功能,使开发者能够轻松地构建各种类型的应用程序,包括桌面应用程序、移动应用程序和嵌入式系统应用程序。下面我们将介绍如何使用Qt进行嵌入式GUI程序的开发。

2023-05-31 16:34:26 3400

原创 少林派问题汇总2

本文给出少林派嵌入式开发板在开发过程中的常见问题与解决方法

2023-05-25 09:00:00 1004 2

原创 运行KT001小车问题汇总

A: 保证虚拟机的ip地址和电脑的ip地址在同一网段,应该是192.168开头的这种, 可以在windows命令行,输入ipconfig查看一下。Q: 在安装ros的时候,出现这样的问题是因为什么,是镜像文件里边缺少东西了吗,可以怎么解决?Q: 我修改 py 文件里面的参数,默认参数不是 usb 摄像头了,然后这个报错是为什么呢?A: 导入的是vmk配置文件,缺少iso镜像文件,不影响ros的运行。:情况:摄像头无法正常显示(没用usb的摄像头),库已经安装好的。A: 将对应py文件里的参数设置成摄像头。

2023-05-18 09:00:00 448

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除