GCC内联汇编实现向量规约的例子

最新推荐文章于 2023-10-21 14:24:59 发布

linyingzhan

最新推荐文章于 2023-10-21 14:24:59 发布

阅读量400

点赞数

分类专栏：硬件优化

本文链接：https://blog.csdn.net/linyingzhan/article/details/8265108

版权

硬件优化专栏收录该内容

6 篇文章 0 订阅

订阅专栏

有了前面一个基础，这个就比较容易折腾出来了，只是换了个表达方式，所以也很快就出炉，负责计算的函数的性能仍然跟GCC（3.4.5）优化后的时间一致，但是因为不知道怎么进一步该这个程序，所以就只能到这个地步了，以后有改进的会继续发布。

#include <stdio.h>

#include <time.h>

#define N 1024*1024*1024

#define M 10

int vector_reduction(int *a, int count)

{

int result = 0;

__asm__ __volatile__(

"xor % % rax, % % rax;"

"xor % % ebx, % % ebx;"

"cmp % % ebx, % % edx;"

"je 2f;"

"1:"

"add (% % rsi), % % rax;"

"add $4, % % rsi;"

"add $1, % % ebx;"

//"inc % % rsi;"

//"inc % % ebx;"

"cmp % % ebx, % % edx;"

"ja 1b;"

"2:"

:"=a"(result), "=S"(a), "=d"(count)

:"a"(result), "S"(a), "d"(count)

:"ebx", "memory"

);

return result;

}

int main()

{

int *a = (int *)malloc(sizeof(int) * N);

int i, result;

clock_t start, ctime;

start = clock();

for(i = 0; i < N; ++i)

a[i] = 1;

ctime = clock() - start;

printf("initial time: % d s\n", ctime / CLOCKS_PER_SEC);

start = clock();

for(i = 0; i < M; ++i)

result = vector_reduction(a, N);

ctime = clock() - start;

printf("sum = % d\n", result);

printf("compute time: % d s\n", ctime / CLOCKS_PER_SEC);

free(a);

return 0;

}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

linyingzhan

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

GCC内联汇编实现向量加法的例子

linyingzhan的专栏

12-06

903

花了一天多看别人的代码，查看命令和AT&T的指令格式，总算自己搞出一个还算能够运行的汇编函数，不过，话也说回来，这个函数真正计算的时间只有12s，但是同样的环境下，使用了GCC（3.4.5版本）的优化过的程序来跑，却也需要16s，看来还真是高效率，因为本人还不懂的如何对汇编程序优化... #include #include #define N 1024*1024*1024 #define

基于RISC-V的GCC内联汇编

weixin_42052288的博客

12-26

2528

内联汇编优化浮点操作数在使用时，constraint (约束) 需要定义为"f"(浮点寄存器)，整型单元一般都是"r"(通用寄存器) + 表示该操作数既可以读也可以写；通常使用在内联汇编含多个指令的情况，需要复用该输出操作数的值 = 表示该操作数可写，通常用在输出操作数若操作数前面不加符号，表示只读操作数，通常用在输入操作数 float32_t multAcc_32x32_float32(float32_t a, float32_t x, float32_t y,

参与评论您还未登录，请先登录后发表或查看评论

GCC中的自动向量化（1）

softee的专栏

08-18

8302

GCC中的自动向量化（1）本文是阅读Dorit Naishlos的文章“Autovectorization in GCC”时做的笔记。在使用了语法树上的静态单赋值（tree SSA）优化框架之后，GCC已经具备了支持自动向量化的能力。目前对向量化的一个限制是，向量化必须在不存在迭代间数据依赖的前提下才能实施。 SIMD的向量化与传统向量机的不同在于，SIMD每次向量化的数组元素较少，随着数

GCC源码分析（5）：自动向量化遍

u014529578的专栏

10-30

1797

转自：http://blog.chinaunix.net/uid-13800995-id-67986.html

C语言编程规约（个人规约）

weixin_34071713的博客

02-21

276

个人理解：程序第一是要供人阅读的，方便业内人员交流、沟通。也方便自己或者他人维护、升级。所以编写程序需要一定的规约，来保持编写代码的简洁性和一致性。关于c语言基本数据类型：为方便跨硬件平台移植，我定义一下数据类型。 typedef unsigned char BOOLEAN; typedef unsigned char INT8U; ...

CUDA编程入门系列（十）并行规约

最新发布

qq_45788429的博客

10-21

1083

不同的线程访问同一资源，要进行临界操作，由原来的并行操作变成串行操作，影响了执行速度。但是随着计算的进行，s的增大，越来越少的线程处于活跃状态，当活跃的线程小于一个warp的数量的时候，还是会产生指令分化的问题。因为一个warp里面的32线程执行相同的指令，如果指令不同（即指令分化）的话，可能会导致32个线程按照串行的方式进行执行，这与我们并行的思想是相悖的。所以，这里存在一个问题，因为此处的线程要进行if的分支结构判断，所以就有可能导致不同的线程有不同的指令，导致指令分化，影响执行速度。

ARM GCC 内联汇编参考手册

08-06

内联汇编是一种强大的技术，允许开发者在C代码中插入低级汇编指令，从而能够进行更加精细的性能调优或实现特定硬件接口的访问。以下是对标题和描述中提到的关键知识点的详细解释。 #### 1. 内联汇编的基本概念 ...

GCC内联汇编入门[参照].pdf

10-11

"GCC内联汇编入门" GCC内联汇编是一种强大的编程技术，可以帮助开发者在C语言中嵌入汇编代码，从而提高程序的执行效率和性能。GCC内联汇编可以分为基本内联汇编和扩展内联汇编两种形式，前者只允许使用汇编语法，后...

GCC 内联汇编

10-28

### GCC 内联汇编详解 #### 一、AT&T与INTEL的汇编语言语法的区别 ##### 1.1 大小写在汇编语言中，AT&T与INTEL两种格式对于指令的大小写有不同的规定。INTEL格式通常采用大写字母来书写指令，而AT&T格式则使用...

cpp-ARMGCC内联汇编参考手册中文版

08-16

ARM GCC内联汇编提供了一种在C或C++代码中插入汇编指令的方法，使得开发者可以直接控制底层硬件操作，以提高程序效率或实现特定功能。这份中文版的手册是为那些需要在ARM架构上使用GCC编译器进行内联汇编编程的学习...

【Linux学习笔记】Linux C中内联汇编的语法格式及使用方法（Inline Assembly in Linux C）

热门推荐

slvher的专栏

04-28

1万+

在阅读Linux内核源码或对代码做性能优化时，经常会有在C语言中嵌入一段汇编代码的需求，这种嵌入汇编在CS术语上叫做inline assembly。本文的笔记试图说明Inline Assembly的基本语法规则和用法（建议英文阅读能力较强的同学直接阅读本文参考资料中推荐的技术文章 ^_^）。注意：由于gcc采用AT&T风格的汇编语法（与Intel Syntax相对应，二者的区

AVX2整数向量运算

海岛Blog

01-22

1万+

在C/C++程序中，使用AVX2指令有很多种方法。嵌入汇编是一般的方法，但是对于不熟悉汇编语言的人来说，有点勉为其难。 gcc编译支持AVX2指令的编程。程序中需要使用头文件和，这样通过调用其中定义的一些函数，达到使用AVX2指令的目的，即用C/C++调用SIMD指令（单指令多数据）。这里给出的样例程序是有关浮点向量运算的例子。其中函数_mm_add_epi32()实现的是整数向量（

奋战一周,终于基本搞定了跨平台内联汇编的选择和其他各种问题.分享一下

menzi11的专栏

03-19

2292

其实本来我的需求挺简单的,我甚至不能说自己是个程序员,各种类库,API什么的我也只是简单了解过boost,ZThread之类常用的,连怎么在windows里用MFC画个窗体都不知道....我主要是个搞算法的人,这几年接触最多的是matlab...其次才是汇编和C++. 介于工作中用到各种数学方面的方法,以及matlab与C++结合时非常恶心的效率和链接方式,以及我对汇编还算略微熟悉,我决

汇编速查-内联汇编

giantpoplar的专栏

11-22

650

内联汇编的格式

内联汇编优化的TAlpha::Mask 部分汇编

alphabuilder的专栏

06-14

733

内联汇编优化版 #ifdef _calpha_using_inlineasm_ i = Height - 1; if (i < 0) return; __asm { mov ecx, Width mov eax, ptrDest mov edx, ptrSrc mov esi, i

CUDA编程06——向量求和（并行规约，相邻配对）

不少年快跑的专栏

12-03

1614

并行规约通常用于处理大输入数据集，将一组输入值规约一个值。数据特点：（1）对于数据集中的元素没有顺序要求。（2）可将数据分为若干小集合，每个线程处理一个集合。操作可以是：求最大值（Max）、求最小值（Min）、求和（Sum）、求乘（Product）。并行规约求和规约求和是常见应用，将输入数据求和得到一个值。如下面简单例子所示：规约求和的最简单思想是：先两两求和，然后再两两直至得到最后结果。核函数代码 // device code __global__ vo..

数据处理之属性规约（主成分分析）

zjlamp的博客

08-06

4979

属性规约的目的是寻找出最小的属性子集，并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。方法包括合并属性、主成分分析等。主成分分析是数据规约（包含属性规约和数值规约）的一种常用方法。用较少的变量去解释原始数据中的大部分变量，即将许多相关性很高的变量转化成彼此相互独立或不相关的变量。主成分分析，当自变量之间不是相互独立时，能够将自变量变换成独立的成分；在自变量太多的情况下，能够...

ARM GCC内联汇编深度指南

ARM GCC内联汇编是一种强大的技术，允许开发者在C或C++代码中直接插入汇编语言指令，从而实现对底层硬件的直接控制，提高代码效率。以下是内联汇编的一些关键知识点： 1. **GCCasm声明**：在C/C++代码中，通过`__...