EfficientML.ai-parallel computing tutorial

Undefined游侠

已于 2023-12-05 16:34:49 修改

阅读量55

点赞数

文章标签：人工智能

于 2023-12-04 16:03:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19859865/article/details/134771642

版权

在EfficientML.ai上学了一下parallel computing的几种方式，来尝试一下效果吧！

整体尝试

基于项目GitHub - mit-han-lab/parallel-computing-tutorial

执行

make -j4

后，报错，找不到pthread相关的内容

添加下面修改后解决问题，

在 11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GH的笔记本上来看看执行benchmark后的效果，可以看到最后一种是上述集中的组合，所以加速效果最好，CUDA没有启用。

11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GH benchmark — 11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GH

接下来又尝试基于树莓派查看一下加速效果，运行等待时间很长。。。

NEON加速调用

值得注意的是，后两个计算结果不正确，原因是arm上编译没有自动调用neon优化的宏。解决办法是修改cmakelists.添加 --mfpu=neon 可以调用neon加速。否则，将不再自动启动。

下面是计算结果，可看到，neon的计算结果正常，但是（只有）最后一行结果不正确。原因进一步分析中。

目前为止，确认了并行计算在x86和ARM两大算力平台的区别。

ARM由于架构不同，需要增加的编译选项也不一致。

在Nvidia TX2上进行调试后，进行分析，发现CPU算力确实明显强于Raspberry Pi3

NEON加速方式分析

TODO

参考文献

ARM Options (Using the GNU Compiler Collection (GCC))

Undefined游侠

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EfficientML.ai-parallel computing tutorial

在 11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GH的笔记本上来看看执行benchmark后的效果，可以看到最后一种是上述集中的组合，所以加速效果最好，CUDA没有启用。值得注意的是，后两个计算结果不正确，原因是arm上编译没有自动调用neon优化的宏。下面是计算结果，可看到，neon的计算结果正常，但是（只有）最后一行结果不正确。接下来又尝试基于树莓派查看一下加速效果，运行等待时间很长。目前为止，确认了并行计算在x86和ARM两大算力平台的区别。
复制链接

扫一扫

Undefined游侠 CSDN认证博客专家 CSDN认证企业博客

码龄10年

55: 原创

9万+: 周排名

3万+: 总排名

1万+: 访问

: 等级

847: 积分

215: 粉丝

294: 获赞

4: 评论

270: 收藏

私信

关注

热门文章

分类专栏

最新评论

EfficientAI Lab：大模型AWQ量化
cooper6666: 咨询一下，为什么现在awq只支持Int4量化，而不支持int3或者int8量化呢？
EfficientAI Lab：大模型AWQ量化
askcs517: 如何评估模型的perplexity值呢？具体方法和代码实现可以分享下吗？
EfficientAI Lab：大模型AWQ量化
小飞侠的日常学习: autoawq在公式3中，需要对s^-1 * x，但是看代码实现，没有找到这个乘法操作，作者给出的注释是# NOTE: s^-1 * x is fused here, according to paper，请问您知道这里为啥么
YOLO系列论文阅读（v1--v3）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。