简单的求和

1783: 简单的求和

Time Limit: 1 Sec   Memory Limit: 128 MB
Submit: 134   Solved: 21

Submit Status Web Board

Description

 定义f(i)代表i的所有因子和(包括1和i),给定一个l,r。求f(l)+f(l+1)+...+f(r)。

Input

 第一行输入一个t(t<1000),代表有t组测试数据,接下来每行输入两个数字l,r,(1<=l<=r<=1000000)。

Output

 每行输出一个整数,代表和。

Sample Input

21 23 4

Sample Output

411

#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<algorithm>
using namespace std;
const int maxn=1000010;
long long f[maxn];
void dabiao(){
	f[1]=1;
	for(int i=2;i*2<maxn;++i){
		for(int j=i+i;j<maxn;j+=i){
			f[j]+=i;
		}
	}
	for(int i=2;i<maxn;++i){
		f[i]=f[i]+f[i-1]+i+1;
	}
}
int main()
{
	dabiao();
	int t,i,j,l,r;
	scanf("%d",&t);
	while(t--){
		scanf("%d%d",&l,&r);
		printf("%lld\n",f[r]-f[l-1]);
	}
	return 0;
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一个简单的 CUDA 向量元素求和算法如下: 1. 将输入向量拷贝到设备(GPU)内存中。 2. 在设备上分配用于输出的内存空间。 3. 在设备上启动一个多个线程的 GPU 核心,每个线程处理向量中的若干个元素。 4. 每个线程计算它所处理的元素的和,并将结果存储在共享内存中。 5. 使用原子操作将每个线程的局部和加入到全局和中。 6. 将全局和从设备内存拷贝回主机(CPU)内存中。 下面是一个简单的 CUDA C 实现: ```cuda __global__ void sum_kernel(float* input, float* output, int n) { __shared__ float sdata[256]; int tid = threadIdx.x; int i = blockIdx.x * blockDim.x + threadIdx.x; sdata[tid] = (i < n) ? input[i] : 0; __syncthreads(); for (int s = 1; s < blockDim.x; s *= 2) { if (tid % (2*s) == 0) { sdata[tid] += sdata[tid + s]; } __syncthreads(); } if (tid == 0) { output[blockIdx.x] = sdata[0]; } } float cuda_sum(float* input, int n) { float* d_input, *d_output; cudaMalloc(&d_input, n*sizeof(float)); cudaMalloc(&d_output, 256*sizeof(float)); cudaMemcpy(d_input, input, n*sizeof(float), cudaMemcpyHostToDevice); int threads_per_block = 256; int blocks_per_grid = (n + threads_per_block - 1)/threads_per_block; sum_kernel<<<blocks_per_grid, threads_per_block>>>(d_input, d_output, n); float* output = (float*) malloc(blocks_per_grid*sizeof(float)); cudaMemcpy(output, d_output, blocks_per_grid*sizeof(float), cudaMemcpyDeviceToHost); float sum = 0; for (int i = 0; i < blocks_per_grid; i++) { sum += output[i]; } cudaFree(d_input); cudaFree(d_output); free(output); return sum; } ``` 该算法使用了线程块和共享内存来并行计算向量元素的和。每个线程块处理一个固定大小的子向量,每个线程计算它所处理的元素的和,并将结果存储在共享内存中。然后,使用原子操作将每个线程的局部和加入到全局和中。最后,将全局和从设备内存拷贝回主机内存中并返回。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值