自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (2)
  • 收藏
  • 关注

原创 2015.3.12

百无聊赖地坐在实验室里,曾经听到别人谈起实验室,总觉得是那样的高大上。又是一年考研季,也是一年找实习季,这样子的日子模拟过许多年,盼了许多年,怕了许多年。听着那些研究员老师说想找物理方面的,不想招计算机方面的。结果是两方面脱节,计算机的人怀揣着互联网的梦来到科研院所,而这里却这样需要基础学科。曾经的教育是目的导向的,一切都是为了找一份看起来像一点技术大牛的工作。软件工程出身,计算机

2015-03-12 16:47:31 358

原创 指针,引用和对象化实例

所有由java转到c++的程序员都有很多相同的疑问。qiz

2014-11-17 17:44:54 347

原创 参数个数不确定

#include "stdafx.h"#include using namespace std;int optionaladd(int a,int b,int* c=NULL){ cout<<c<<":"; if (c>0) { return a+b+*c; }else{ return a+b; } }int main(){ int a=1, b=2,

2014-10-27 17:10:10 378

原创 Java与C++差异之return

在非void的情况下,c++可以没有返回值,而java必须有

2014-10-20 15:42:41 540

原创 MPI用MPI_Send, MPI_Recv实现MPI_Alltoall的块方法

用了一个多小时,终于搞定用MPI_Send, MPI_Recv实现MPI_Alltoall,网上的类似的源码都是转置单个元素,想按块转置真不容易。首先科普一下什么是MPI_Alltoall, MPI的n个进程,一个进程有n个块,如果块只包含一个元素,则形成N*N的矩阵,MPI_Alltoall要做的是转置这个矩阵,即第i 个进程的第j块发送到第j个进程的第i块。废话不多,上源码。#in

2014-10-09 16:35:52 1226

中科院胡伟武老师高性能答案word完全版

中科院高性能胡伟武老师答案完整版 1. 解:A为10MIPS,B为20MIPS,C为40MIPS。 三台机器实际性能相同。 2. 解:加速比y与向量化比例x之间的关系是:y=1/((1-x)+x/8)=1/(1-7x/8)……(A) (1) (2) 在式(A)中令y=2,可解得x=4/7≈57.14%。 此时向量模式运行时间占总时间比例是((4/7)/8)/(3/7+((4/7)/8))=1/7=14.29% (3) 硬件方法,整体加速比为1/(1-0.7*(1-1/16))=2.91 软件方法,设相同加速比下向量化比例为x,即1/(1-7x/8)=2.91, x=0.75 所以推荐软件方法。 3. 解: (1) MIPSEMUL=(I+F×Y)/(W×106) ;MIPSFPU=(I+F)/(B×106) (2) 120=(I+8×106×50)/(4×106) => I=80×106 (3) 80=(80×106+8×106)/(B×106) => B=1.1 (4) MFLOPS=F/((B-((W*I)/(I+F*Y))) ×106)≈18.46 (5) 决策正确,因为执行时间缩短了,这才是关键标准。 4. 解: (1) y=12.29386-0.18295x+0.0015x2 (2) y=342.47443-6.36386x+0.02727x2 5. 解: 1.1V下静态功耗1.1*1.1/(1.05/0.5)=0.576W 1.1V下1GHZ时动态功耗为1.1*2.5-0.576=2.174W 1.1V下0.5GHZ功耗功耗为2.174*0.5/1=1.087W 1.1V下0.5GHZ总功耗为1.087+0.576=1.663W 6. 解: a) 先证明N=2k时,正数 。对k进行数学归纳法即可。当2k-1<N<2k时,令 ,则 。若 , ,矛盾。因此当当2k-1<N<2k时, 。 b) 证:假设参考机的程序分值为Z={ , },其中n为SPEC CPU2000中的程序个数; 而A机器的程序分值为X={ } B机器的程序分值为Y={ } 则有: A机器的性能为: ,B机器的性能为: 从而,A与B机器的性能比为: 可见,其结果与参考样机无关。故得证。 7. 解: AMD 4核Barcelona,2.8G,3发射每个核1个128位浮点向量功能部件和1个128位浮点加法向量部件,峰值性能4*4*2.8=44.8GFlops。 2路L1I 64KB;2路L1D 64KB 3 latency;16路L2 512KB;32路2MB共享L3,内存带宽21.34GB/s Intel 4核Nehalem(i7),2.5G-3G,4发射每个核1个128位浮点向量功能部件和1个128位浮点加法向量部件,峰值性能4*4*3=48GFlops。4路L1I 32KB;4路L1D 32KB 4 latency;8路256KB L2 12 latency;16路8MB L3 30-40 latency;内存带宽31.92GB/s

2013-12-12

快速排序 二分查找 c++

如题~~~~~~~~~~~~~~~~~~

2010-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除