自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 【Pytorch】Torch FX 原理

PyTorch是一个开源的机器学习框架,Torch FX是PyTorch框架中的一个子项目,旨在提供一种机制来捕获和转换PyTorch模型的计算图。它被设计为一个代码转换工具,主要用于模型优化和加速。大意就是可以把pytorch中的python前向代码转换为你想要的样子。

2024-07-10 21:17:54 453

原创 赛灵思【pg021_axi_DMA】总结归纳

AXI直接内存访问(AXI DMA)IP核心提供了在AXI4存储器映射和AXI4-Stream IP接口之间的高带宽直接内存访问。其可选的散聚功能还能够从基于处理器的系统中的中央处理单元(CPU)卸载数据移动任务。初始化,状态和管理寄存器可以通过AXI4-Lite的从属接口进行访问。图1-1描绘了该核心的功能组成部分。在AXI4存储器映射和AXI4-Stream IP接口之间实现高带宽的数据传输。可选的散聚功能可以卸载CPU上的数据移动任务,提高系统的效率和性能。

2024-07-09 18:27:31 584

原创 优化PyTorch模型训练性能要点

使用torch.as_tensor函数在正确的设备上创建张量,并将non_blocking设置为True可以帮助优化数据操作,提高整体性能。针对GPU的优化:选择正确的GPU、编译模型、使用DDP以及使用低精度的数据类型对于充分利用GPU的处理能力至关重要。将数据拷贝到本地NVMe(SSD)、使用Alluxio作为数据访问层以及启用异步数据加载等技术可以显著加快数据加载,缩短模型训练时间。对结构化数据使用更高效的文件格式、启用SIMD和使用更高效的内存分配器等技术有助于优化CPU处理,加速模型训练。

2024-07-09 05:28:43 118

原创 PyTorch 2.0 新特性

TorchInductor 是一项旨在显著提升代码生成速度的技术,它巧妙地利用了定义即运行(Define-by-Run)的中间表示(Intermediate Representation, IR)。在深度学习框架中,中间表示是一种将用户代码转换为更底层、更易于优化形式的抽象表示。传统上,这种转换和优化工作通常在每次运行时动态完成,虽然提供了灵活性,但可能会影响性能。

2024-07-09 03:21:06 934

原创 【pytorch】tensor的复制避坑;tensor.clone() & tensor.detach() 详解

我原以为 b = a.data 就是开辟一个新空间给 b变量,然后修改 b 的值时 a 的值不会因此变化,谁知道即使用了.data属性,修改 b 的值后 a 的值依然会发生变化。后来上网查找,发现无论是用 b = a,还是 b = a.data,变量a和b的关系都没有断开,下面介绍两种函数,请注意区分!

2024-07-08 20:36:59 162

原创 嵌入式Linux的运动物体检测报警方案设计

笔记:嵌入式Linux的运动物体检测报警方案设计

2024-07-08 17:54:05 343

原创 《极度缺人(人工智能)!月薪20K!15薪!》

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档。

2024-07-07 00:57:19 584

FPGA uart串口回环实验

FPGA uart串口回环实验代码参考 quartus vivado都有

2023-10-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除