CUDA By Examples 9 - 原子操作 Atomics

一. 背景

  1. 有些操作不能被拆分, 否则会引发计算错误.
  2. 使thread对资源有暂时的”独占性”, 避免计算错误.

二. CPU计算直方图

辅助代码见: http://blog.csdn.net/full_speed_turbo/article/details/71107132

#include "../common/book.h"

#define SIZE (100*1024*1024)
#include <ctime>  
clock_t  clockBegin, clockEnd;  
void PrintfContainerElapseTime(char *pszContainerName, char *pszOperator, long lElapsetime)    
{    
    printf("%s 的 %s操作 用时 %d毫秒\n", pszContainerName, pszOperator, lElapsetime);    
}    

int main(void)
{
    clockBegin = clock();   

    unsigned char *buffer = (unsigned char*)big_random_block( SIZE );
    unsigned int histo[256];
    for (int i=0;i<256;i++)
    {
        histo[i] = 0;
    }
    for (int i=0;i<SIZE;i++)
    {
        histo[buffer[i]]++;
    }
    long histoCount = 0;
    for (int i=0; i<256; i++)
    {
        histoCount += histo[i];
    }
    printf("Histogram Sum: %1d\n", histoCount);

    clockEnd = clock();   
    //输出时间是ms
    PrintfContainerElapseTime("100MB U8数据", "进行直方图", clockEnd - clockBegin);   

    free(buffer);
    return 0;
}

这里写图片描述

三. GPU global memory 计算直方图

#include "../common/book.h"

#define SIZE (100*1024*1024)

__global__ void histo_kernel(unsigned char *buffer, long size, unsigned int *histo)
{
    int i = threadIdx.x + blockIdx.x*blockDim.x;
    int stride = blockDim.x * gridDim.x;
    while( i<size )
    {
        atomicAdd( &(histo[buffer[i]]), 1 );
        i += stride;
    }
}

int main(void)
{
    //CPU上malloc
    unsigned char *buffer = (unsigned char*)big_random_block(SIZE);
    //为了记录时间
    cudaEvent_t start, stop;
    HANDLE_ERROR( cudaEventCreate( &start ) );
    HANDLE_ERROR( cudaEventCreate( &stop ) );
    HANDLE_ERROR( cudaEventRecord( start, 0 ) );
    // GPU上分配内存
    unsigned char *dev_buffer;
    unsigned int  *dev_histo;
    HANDLE_ERROR( cudaMalloc( (void**)&dev_buffer, SIZE ) );
    HANDLE_ERROR( cudaMemcpy( dev_buffer, buffer, SIZE,
                                cudaMemcpyHostToDevice ) );
    HANDLE_ERROR( cudaMalloc( (void**)&dev_histo, 256*sizeof(int) ) );
    HANDLE_ERROR( cudaMemset( dev_histo, 0, 256*sizeof(int) ) );
    //根据GPU处理器数量确定block数量
    cudaDeviceProp prop;
    HANDLE_ERROR( cudaGetDeviceProperties( &prop, 0 ) );
    int blocks = prop.multiProcessorCount;
    histo_kernel<<<blocks*2,256>>>( dev_buffer, SIZE, dev_histo );

    unsigned int histo[256];
    HANDLE_ERROR( cudaMemcpy(histo, dev_histo,
                                256*sizeof(int),
                                cudaMemcpyDeviceToHost ) );
    //获取用时
    HANDLE_ERROR( cudaEventRecord( stop, 0 ) );
    HANDLE_ERROR( cudaEventSynchronize( stop ) );
    float elapsedTime;
    HANDLE_ERROR( cudaEventElapsedTime( &elapsedTime, start, stop ) );
    printf( "Time to generate: %3.1f ms\n", elapsedTime );

    long histoCount = 0;
    for ( int i=0; i<256; i++)
    {
        histoCount += histo[i];
    }
    printf( "Histogram Sum: %1d\n", histoCount );

    //验证结果
    for (int i=0; i<SIZE; i++)
    {
        histo[buffer[i]]--;
    }
    for (int i=0; i<256; i++)
    {
        if (histo[i] != 0)
        {
            printf("Failure at %d!\n", i);
        }
    }

    HANDLE_ERROR( cudaEventDestroy( start ) );
    HANDLE_ERROR( cudaEventDestroy( stop ) );
    cudaFree( dev_buffer );
    cudaFree( dev_histo );
    free(buffer);

    return 0;
}

这里写图片描述

如果有atomicAdd undefined错误, VS2008按照下图设置:
这里写图片描述

四. GPU使用shared memory计算直方图

只修改kernel函数:
1. 每个block有256个thread
2. 每个thread都要先将相应共享内存temp中和threadIdx.x对应的值置0
3. 每个thread统计hist, 步长是线程总数blockDim.x * gridDim.x
4. 每个block有256个thread, 也正好有256个bin. 所以, 每个thread都将相应threadIdx.x的bin加到总的histo上.
5. 注意同步操作, 保证所有thread都计算完成, 再做下一步操作.

__global__ void histo_kernel( unsigned char *buffer,
                              long size,
                              unsigned int *histo)
{
    __shared__ unsigned int temp[256];
    temp[threadIdx.x] = 0;
    __syncthreads();

    int i = threadIdx.x + blockIdx.x * blockDim.x;
    int offset = blockDim.x * gridDim.x;
    while( i < size )
    {
        atomicAdd( &temp[buffer[i]], 1);
        i += offset;
    }
    __syncthreads();

    atomicAdd( &histo[threadIdx.x], temp[threadIdx.x] );
}

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: cesium-examples-master 是一个 Cesium 的示例项目。Cesium 是一个开源的3D地球可视化引擎,能够在Web上以浏览器为平台展示地球相关的数据和图形。cesium-examples-master 包含了一系列基于 Cesium 引擎的示例代码和样例数据,供开发人员学习和参考。 这个项目提供了丰富的示例,涵盖了各种场景和功能,如地形渲染、卫星图像展示、空中飞行效果、地球热力图、数据可视化等。每个示例都提供了完整的源代码和相关资源,开发人员可以直接运行和修改,快速了解 Cesium 的使用方式和功能特性。 cesium-examples-master 的目的是帮助开发人员加快上手 Cesium,提供具体的示例代码和实现思路,同时也是一个社区贡献的项目,任何人都可以向其中添加自己的示例代码。这对于想要共享自己的 Cesium 开发经验,或者想要通过Cesium实现自己的创意项目的开发者们来说都是很有帮助的。 总之,cesium-examples-master 是一个集合了Cesium引擎的示例代码和样例数据的项目,通过这个项目,开发人员可以学习和参考Cesium的使用方式和功能特性,同时也可以贡献自己的示例代码,为Cesium社区贡献自己的力量。 ### 回答2: cesium-examples-master是一个开源的Cesium.js示例库。Cesium.js是一个基于WebGL的开源JavaScript库,用于创建3D地球和地理信息可视化应用程序。 cesium-examples-master库中包含了大量的示例代码,用于演示如何使用Cesium.js库进行地球和地理数据可视化。这些示例涵盖了各种应用场景,包括地球浏览、地理数据可视化、飞行模拟、地球时间轴等等。 这个示例库非常有用,特别是对于那些想要利用Cesium.js构建自己的3D地球和地理信息应用程序的开发人员来说。通过学习和理解这些示例代码,开发人员可以快速上手并加快应用程序的开发速度。 此外,cesium-examples-master还可以作为一个学习资源,供初学者学习Cesium.js库的使用。通过运行和修改这些示例代码,初学者可以逐步掌握Cesium.js的各种功能和技术知识。 总之,cesium-examples-master是一个非常有用的示例库,可以帮助开发人员和初学者更好地了解和应用Cesium.js库。无论是开发3D地球和地理信息应用程序,还是学习Cesium.js库的使用,这个示例库都是一个很好的资源。如果你对Cesium.js感兴趣,不妨去查看cesium-examples-master库并尝试运行其中的示例代码。 ### 回答3: cesium-examples-master是一个Cesium的示例代码库。Cesium是一个开源的地球可视化库,用于在Web浏览器中创建交互式三维地球和地球数据的应用程序。cesium-examples-master提供了许多不同类型的示例,展示了使用Cesium创建各种地球可视化应用的能力。这些示例包括地球模型的加载、地形数据的展示、地图投影的转换、地球上的点、线和面的创建等等。通过这些示例,开发者可以学习如何使用Cesium的API来构建自己的地球可视化项目,并根据自己的需求进行修改和扩展。cesium-examples-master的代码注释详细,对于刚开始学习Cesium的开发者来说是一个很好的参考工具。在cesium-examples-master中,开发者可以找到各种应用场景的示例代码,例如飞行模拟、地球上的图层切换、轨迹的绘制和动态效果等等。总之,cesium-examples-master对于想要学习和探索Cesium地球可视化库的开发者来说是一个非常有用的资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值