Intel VTune 访存分析

原创 2016年04月10日 12:16:06

Intel VTune 访存分析

1. Intel VTune简介

Intel VTune Amplifier 是一款用于分析软件性能的商业软件,它分析的软件是基于32位或64位的x86构架,有图形界面和命令行两种操作方式。VTune有windows、linux和mac版本,有收费的,试用的,免费的。详情请看这里

2. 优化方法

Intel VTune提供以下几种方法进行程序的优化分析:
* Analyzing Application Performance with Hardware Event-based Stack Sampling
* Locating Inefficient Synchronization
* Tuning Applications Using a Top-down Microarchitecture Analysis Method
* Identifying OS Thread Migration Using Intel® VTune™ Amplifier
* Analyzing Applications Using Intel® HD Graphics
* Analyzing MPI Applications
* Vectorization Advisor

3. Intel VTune使用

3.1 VTune 安装

3.1.1 下载

这里下载vtune_amplifier_xe_2016_update2.tar.gz。下载前需要注册账号并登陆。

3.1.2 安装

  • 解压,并进入./vtune_amplifier_xe_2016_update2目录
  • 执行./install.sh,需用root权限。
    默认的安装目录是:/opt/intel/vtune_amplifier_xe_2016

3.1.3 设置环境变量

csh/tcsh 用户: # source <install_dir>/amplxe-vars.csh
bash     用户: # source <install_dir>/amplxe-vars.sh

3.2. 访存分析

3.2.1 执行命令

# amplxe-cl -c memory-access -knob analyze-mem-objects=true -data-limit=0 \
-d 60 --  ./a.out
# amplxe-cl  -report summary

3.2.2 与访存有关的事件

这里列出了CPU记录的所有事件。

事件 含义
INST_RETIRED.ANY 指令执行的计数
CPU_CLK_UNHALTED.THREAD 非停机状态花费的机器周期计数
CYCLE_ACTIVITY.STALLS_L1D_PENDING 由一级缓存缺失导致的执行受阻的机器周期计数
CYCLE_ACTIVITY.CYCLES_NO_EXECUTE 所有执行受阻的机器周期计数
CYCLE_ACTIVITY.STALLS_L2_PENDING 由二级缓存缺失导致的执行受阻的机器周期计数
CYCLE_ACTIVITY.STALLS_LDM_PENDIN 所有因内存原因而执行受阻的机器周期计数
MEM_TRANS_RETIRED.LOAD_LATENCY_GT_4 载入内存数据延时超过4个时钟周期的计数
MEM_LOAD_UOPS_RETIRED.LLC_MISS_PS 内存数据载入过程中三级缓存缺失的计数
MEM_UOPS_RETIRED.ALL_LOADS_PS 内存数据载入微操作的计数
MEM_UOPS_RETIRED.ALL_STORES_PS 内存数据存储微操作的计数
MEM_LOAD_UOPS_RETIRED.LLC_HIT_PS 三级缓存命中的微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.LOCAL_DRAM 三级缓存缺失且从本地内存得到数据的载入微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.REMOTE_DRAM 三级缓存缺失且从远端内存得到数据的载入微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.REMOTE_HITM 三级缓存缺失且从远端缓存得到数据的载入微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.REMOTE_FWD 三级缓存缺失且通过远端缓存转发而得到数据的载入微操作的计数
Total_Latency_MEM_UOPS_RETIRED.ALL_LOADS_PS 数据载入微操作产生的全部延时
Total_Latency_MEM_TRANS_RETIRED.LOAD_LATENCY_GT_4 由延时超过4个时钟周期的数据载入微操作产生的全部延时
Total_Latency_MEM_UOPS_RETIRED.ALL_STORES_PS 数据存储微操作产生的全部延时
Total_Latency_MEM_LOAD_UOPS_RETIRED.LLC_HIT_PS 三级缓存命中的数据载入微操作产生的全部延时
Total_Latency_MEM_LOAD_UOPS_RETIRED.LLC_MISS_PS 三级缓存缺失的数据载入微操作产生的全部延时

部分事件的含义可能理解的有错误,欢迎指正。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

vtune性能分析工具--找出程序性能瓶颈

1. 概述 VTune是Intel一个比较强大的性能分析软件。主要包括三个小工具: (1)Performance Analyzer:性能分析,找到软件性能比较热的部分,一般也就是性能瓶颈的关键点。...

VTune性能分析器简介

原文地址:http://blog.sina.com.cn/s/blog_704f9d530100pzu3.html 7.2.1 VTune简介 Intel VTune性能分析器即Intel? ...

VTune工具使用心得

0.  概述 VTune是Intel一个比较强大的性能分析软件。主要包括三个小工具: (1)Performance Analyzer:性能分析,找到软件性能比较热的部分,一般也就是性能瓶颈的关键点...

vtune (英特尔VTune™ 性能分析器)的安装过程

vtune (英特尔VTune™ 性能分析器)的安装过程 vtune可通过图形用户界面轻松优化应用性能,而且无需重新编译。—— [百度百科]    由于在开发项目中需要用到 vtune 分析性能,...

多线程程序评测工具--Intel Vtune 安装及使用

2.Vtune 下载,安装 Vtune 有 windows 版本和 linux 版本,有收费的,试用的,免费的。本人使用的是一款试用版本, vtune 地址http://software.intel...
  • vbskj
  • vbskj
  • 2014-11-17 06:21
  • 6081

内存对齐的malloc、realloc、free

最近需要用到内存对齐的内存分配函数,参考网上的一些实现,自己也试着写了一个,经过测试可以使用。欢迎拍砖,微笑。 0.内存对齐的大小#define CACHE_LINE_SIZE 64 /*内存对齐...

Intel VTune分析结果中的名词释译

Elapsed Time(执行耗时): the total time your target ran, is calculated as follows: Wall clock time at e...

intel vtune的安装与使用

因特尔Vtune™

Intel Vtune使用

工具名称:Intel® VTune™ Amplifier XE 2016 Update 2 for Linux see: $install-dir/documentation/$language/...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)