
算子开发
文章平均质量分 58
luoganttcc
微信:luogantt2
展开
-
介绍一下 Octave
可能需要检查是否有遗漏的重要信息,比如Octave在2020年Matlab禁用风波后作为替代品的地位,以及它在机器学习课程中的应用,比如吴恩达的课程使用Octave,这能突出其教育用途。用户给的参考内容很多,包括知乎文章和网页资料,涵盖了Octave的历史、功能、语法、与MATLAB的对比、安装使用以及应用场景等。首先,我需要明确Octave的基本定义,它是一个开源的数值计算软件,类似于MATLAB,语法高度兼容,主要用于科学计算和工程领域。首先,我需要整理提供的参考内容,看看有哪些关键点需要覆盖。原创 2025-02-16 12:44:34 · 878 阅读 · 0 评论 -
c 语言实现矩阵乘法
【代码】c 语言实现矩阵乘法。原创 2025-02-13 20:23:51 · 113 阅读 · 0 评论 -
c++ 实现矩阵乘法
矩阵乘法的基本实现方法是三层循环,但不同的循环顺序会影响性能,比如i-j-k和i-k-j的顺序。然后,参考内容里提到了一些优化方法,比如调整循环顺序来提高缓存命中率,使用一维数组存储矩阵,或者利用SIMD指令如AVX进行向量化加速。还有用户可能关心的是如何设计一个矩阵类,或者是否需要使用现有的库如Eigen或BLAS。首先,我应该从基础实现开始。最基本的矩阵乘法需要三个嵌套循环,遍历行、列和中间维度进行累加。参考内容中的例子大多使用了这种结构。原创 2025-02-13 12:52:43 · 994 阅读 · 0 评论 -
Eigen 生成 随机 矩阵
【代码】Eigen 生成 随机 矩阵。原创 2025-02-13 12:43:29 · 92 阅读 · 0 评论 -
算子开发 kernal 侧如何实现
在深度学习框架(如TensorFlow、PyTorch等)中,算子通常分为用户态(Python等高级语言实现)和内核态(Kernel,通常由C++或CUDA等底层语言实现)两部分。内核态的实现通常涉及高效的计算逻辑,特别是在GPU上进行加速计算。例如,在PyTorch中,你可以通过定义一个自定义的autograd.Function来实现新的算子,并在其forward和backward方法中调用CUDA内核。线程块(Block)和网格(Grid)的大小:这些决定了CUDA内核的并行度。原创 2025-02-11 18:02:19 · 404 阅读 · 0 评论 -
华为升腾算子开发(一) helloword
包含核函数的Kernel实现文件hello_world.cpp代码如下:核函数hello_world的核心逻辑为打印"HelloWorld"字符串。hello_world_do封装了核函数的调用程序,通过<<<>>>内核调用符对核函数进行调用。下面是一个简单的AscendC的"HelloWorld"样例,展示了一个AscendC核函数(设备侧实现的入口函数)的基本写法,及其如何被调用的流程。原创 2025-01-20 10:55:33 · 593 阅读 · 0 评论 -
华为CANN and 英伟达CUDA
在数字时代,石油曾是工业的血液,驱动着世界的运转。然而,随着人工智能的兴起,一种新的能源正在悄然崛起,它就是算力——AI时代的新石油。这不再是关于地下的挖掘,而是关于数据的开采和智能的提炼。在这个新纪元,算力成为了衡量一个企业、一个国家乃至一个文明进步的关键指标。每一个算力时代,都有两大核心,一个是计算芯片,另一个是操作系统。在CPU时代,就是大名鼎鼎的Wintel联盟。那么在AI时代呢?目前看最有可能的就是英伟达的GPU+CUDA。原创 2025-01-08 17:51:25 · 1541 阅读 · 0 评论 -
Ascend C算子开发(进阶)
本课程是Ascend C算子开发的进阶教程,通过课程讲解及样例实操,帮助你学习如何使用Ascend C进行自定义算开发,并在实际应用中调用自定义算子。通过此课程,全面掌握Ascend C算子开发和调用流程,独立完成算子核函数开发、Tiling开发,并进行单算子、网络中算子调用。在昇腾AI处理器上进行Ascend C算子开发的开发人员。4、学习并完成单算子、网络中算子调用。2、掌握常用的Tiling设计和开发。1、掌握算向量算子核函数开发。3、学习并完成算子的编译部署。原创 2025-01-06 14:34:47 · 213 阅读 · 0 评论 -
OrangePi AIpro 香橙派 昇腾 Ascend C算子开发 - 环境搭建 原创可用
OrangePi AIpro 香橙派 昇腾 Ascend C算子开发flyfish环境搭建部分OrangePi AIpro 香橙派的npu为310B4,通常配置的时候写 Ascend310B4社区版资源下载地址。原创 2025-01-04 14:41:21 · 381 阅读 · 0 评论 -
香橙派安装 opencv 4.9.0
然后使用make -j2或者make -j4来进行编译,这个编译时间比较长,j后面的数字可以修改成4,6,8,视你的机器的处理核心数来定,越高的话越快,我是make -j2,因为香橙派Orange AI Pro 总共四个核,如果全部占满,直接会卡死。配置c++了,先在/etc/ld.so.conf.d/文件夹下新建一个opencv4.conf,里面写入/usr/local/lib。这样子就可以了,接下来使用命令安装Opencv,这样会安装Opencv以及生成的pkg-config文件。原创 2025-01-04 13:52:38 · 647 阅读 · 0 评论