CSAPP 第三版 第五章 家庭作业and so on

CSAPP 第三版 第五章 家庭作业
自己做的 仅供参考 可能出现错误

注:5.18 5.19 mark一下

5.13

A. 略
B. 浮点加法的延迟界限,CPE 3.00
C. 整数加法的延迟界限,CPE 3.00
D. 浮点数乘法与关键路径上的浮点数加法并行,浮点数乘法功能单元容量>1,所以浮点数乘法不会成为关键路径的阻碍。而关键路径上只有浮点加法,浮点数加法的延迟界限为3。

5.14

程序如下:

/* Inner product. Accumulate in temporary */  
void inner5(vec_ptr u, vec_ptr v, data_t *dest) {
	long i;
	long length = vec_length(u);
	long limit = length - 5;
	data_t *udata = get_ver_start(u);
	data_t *vdata = get_vec_start(v);
	data_t sum = (data_t)0;

	for (i = 0; i < limit; i += 6) {
		sum = sum + udata[i] * vdata[i] + 
			udata[i + 1] * vdata[i + 1] + 
			udata[i + 2] * vdata[i + 2] + 
			udata[i + 3] * vdata[i + 3] + 
			udata[i + 4] * vdata[i + 4] + 
			udata[i + 5] * vdata[i + 5];
	}
	for (; i < length; i++) {
		sum = sum + udata[i] * vdata[i];
	}
	*dest = sum;
}
A. 当加法的功能单元和乘法的功能单元全都处于满流水的状态CPE最低,即合并运算达到吞吐量下界。对于整数运算,加法的吞吐量下界为0.5,乘法的吞吐量下界为1.0,故CPE=max{0.5,1.0};对于浮点数运算,加法的吞吐量下界是1.0,乘法的吞吐量下界是0.5,故CPE=max{1.0,0.5}=1.0。综上,CPE的下界是1.0。
B. 即使进行了 6 x 1 循环展开,但是还是要依次进行6次浮点加法,并没有减少内存读写的次数和流水线的发生,算下来单个元素还是需要3个时钟周期。

5.15

/* Inner product. Accumulate in temporary */  
void inner6(vec_ptr u, vec_ptr v, data_t *dest) {
	long i;
	long length = vec_length(u);
	long limit = length - 5;
	data_t *udata = get_ver_start(u);
	data_t *vdata = get_vec_start(v);
	data_t sum0 = (data_t)0;
	data_t sum1 = (data_t)0;
	data_t sum2 = (data_t)0;
	data_t sum3 = (data_t)0;
	data_t sum4 = (data_t)0;
	data_t sum5 = (data_t)0;

	for (i = 0; i < limit; i += 6) {
		sum0 = sum0 + udata[i] * vdata[i];
		sum1 = sum1 + udata[i + 1] * vdata[i + 1];
		sum2 = sum2 + udata[i + 2] * vdata[i + 2];
		sum3 = sum3 + udata[i + 3] * vdata[i + 3];
		sum4 = sum4 + udata[i + 4] * vdata[i + 4];
		sum5 = sum5 + udata[i + 5] * vdata[i + 5];
	}
	for (; i < length; i++) {
		sum0 = sum0 + udata[i] * vdata[i];
	}
	*dest = sum0 + sum1 + sum2 + sum3 + sum4 + sum5;
}

加载器的数量为2,而每个元素的循环就需要两个加载器。

5.16

/* Inner product. Accumulate in temporary */  
void inner7(vec_ptr u, vec_ptr v, data_t *dest) {
	long i;
	long length = vec_length(u);
	long limit = length - 5;
	data_t *udata = get_ver_start(u);
	data_t *vdata = get_vec_start(v);
	data_t sum = (data_t)0;
	
	for (i = 0; i < limit; i += 6) {
		sum = sum + (udata[i] * vdata[i] +
			(udata[i + 1] * vdata[i + 1] +
			(udata[i + 2] * vdata[i + 2] +
			(udata[i + 3] * vdata[i + 3] +
			(udata[i + 4] * vdata[i + 4] +
			udata[i + 5] * vdata[i + 5])))));
	}
	for (; i < length; i++) {
		sum = sum + udata[i] * vdata[i];
	}
	*dest = sum;
}

5.17

void *new_memset(void *s, int c, size_t n) {
	unsigned long w;
	unsigned char *lw = (unsigned char *)&w;
	size_t cnt = 0;
	while (cnt < K) {
		*lw++ = (unsigned char)c;
		cnt++;
	}
	
	size_t i;
	unsigned char *schar = s;
	for (i = 0; (size_t)schar % K != 0 || i == n; i++) {
		*schar++ = (unsigned char)c;
	}
	

	size_t limit = n - K + 1;
	for (; i < limit && (int)limit > 0; i += K) {
		*(unsigned long *)schar = w;
		schar += K;
	}

	for (; i < n; i++) {
		*schar++ = (unsigned char)c;
	}
	return s;
}

5.18

double poly_6_3a(double a[], double x, long degree) {
  long i = 1;
  double result0 = a[0];
  double result1 = 0;
  double result2 = 0;

  double xpwr0 = x;
  double xpwr1 = x * x * x;
  double xpwr2 = x * x * x * x * x;

  double xpwr_step = x * x * x * x * x * x;
  for (; i < degree - 5; i+=6) {
    result0 = result0 + (a[i] * xpwr0 + a[i + 1] * xpwr0 * x);
    result1 = result1 + (a[i + 2] * xpwr1 + a[i + 3] * xpwr1 * x);
    result2 = result2 + (a[i + 4] * xpwr2 + a[i + 5] * xpwr2 * x);
    xpwr0 *= xpwr_step;
    xpwr1 *= xpwr_step;
    xpwr2 *= xpwr_step;
  }

  for (; i <= degree; i++) {
    result0 = result0 + a[i] * xpwr0;
    xpwr *= x;
  }
  return result0 + result1 + result2;
}

5.19

void psum_4_1a(float a[], float p[], long n) {
	long i;
	float tmp0, tmp1, tmp2, tmp3 = 0;

	for (i = 0; i < n - 3; i += 4) {
		tmp0 = tmp3 + a[i];
		tmp1 = tmp0 + a[i + 1];
		tmp2 = tmp1 + a[i + 2];
		tmp3 = tmp2 + a[i + 3];

		p[i] = tmp0;
		p[i + 1] = tmp1;
		p[i + 2] = tmp2;
		p[i + 3] = tmp3;
	}
	for (; i < n; i++) {
		tmp3 += a[i];
		p[i] = tmp3;
	}
}
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《CSAPP第三版中文PDF》是指《深入理解计算机系统》(Computer Systems: A Programmer's Perspective)这本书的中文翻译版。这本书是由Randal E. Bryant和David R. O'Hallaron共同编写的,旨在帮助读者深入理解计算机系统的工作原理和设计思想。 该书分为主要的十四章,内容涵盖了计算机系统的方方面面,从程序的执行和优化,到处理器的设计和优化,再到内存层次结构和虚拟内存管理。书中包含了大量的实例和代码,以帮助读者理解和实践所学的概念。 这本书的第三版在第二版的基础上进行了全面的更新和扩展。新版增加了对多核处理器、并行计算和网络编程等新兴领域的讨论,使读者能够更好地了解当代计算机系统的工作原理。 《CSAPP第三版中文PDF》的中文翻译版提供了更便捷的学习途径,使更多的中文读者能够通过这本书深入了解计算机系统。无论是对于计算机专业的学生,还是对于从事软件开发或系统维护工作的技术人员,这本书都是一本非常宝贵的参考书。通过阅读这本书,读者可以更全面地掌握计算机系统的原理和知识,提升自己在计算机领域的理解和能力。 ### 回答2: 《深入理解计算机系统(第三版)》是由Randal E. Bryant和David R. O'Hallaron合著的一本计算机科学教材,也被称为CSAPP。这本书提供了一个全面而深入的视角来理解计算机系统的内部工作原理。 《深入理解计算机系统(第三版)》通过逐步解释计算机系统的各个组成部分,从硬件基础、系统软件、过程级并发性到存储器层次结构等,使读者能够获得对计算机系统设计和优化的全面认识。书中的例子和练习旨在帮助读者思考和解决各种计算机系统问题。 该书有如下特点: 1. 着重于概念和原则:CSAPP并不仅仅关注于具体技术和工具,它更关注理解计算机系统的基本原理和概念。这使得读者能够适应各种计算机系统,并可以将其应用到其他类似的系统中。 2. 强调实际应用:书中提供了许多例子和实践,这些都是真实世界中计算机系统的典型问题和解决方案。这使得读者能够更好地将理论知识应用于实际工作中。 3. 全面而深入:CSAPP从底层到顶层逐渐延伸,从而形成一个全面而深入的计算机系统的学习路径。这使得读者能够快速了解计算机系统的整体结构和工作原理。 4. 结构清晰:书中的章节和内容组织架构清晰,逻辑性强。这使得读者可以根据自己的需求和兴趣来选择阅读和学习的内容。 总结起来,《深入理解计算机系统(第三版)》是一本具有全面性、深入性和实用性的计算机系统教材。通过阅读这本书,读者可以深入理解计算机系统的内部工作原理,迅速适应各种计算机系统,并将理论知识应用于实际工作中。这本书对于计算机科学和工程领域的学生和从业人员都是一本不可或缺的指导书。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值