Intel VTune 访存分析

原创 2016年04月10日 12:16:06

Intel VTune 访存分析

1. Intel VTune简介

Intel VTune Amplifier 是一款用于分析软件性能的商业软件,它分析的软件是基于32位或64位的x86构架,有图形界面和命令行两种操作方式。VTune有windows、linux和mac版本,有收费的,试用的,免费的。详情请看这里

2. 优化方法

Intel VTune提供以下几种方法进行程序的优化分析:
* Analyzing Application Performance with Hardware Event-based Stack Sampling
* Locating Inefficient Synchronization
* Tuning Applications Using a Top-down Microarchitecture Analysis Method
* Identifying OS Thread Migration Using Intel® VTune™ Amplifier
* Analyzing Applications Using Intel® HD Graphics
* Analyzing MPI Applications
* Vectorization Advisor

3. Intel VTune使用

3.1 VTune 安装

3.1.1 下载

这里下载vtune_amplifier_xe_2016_update2.tar.gz。下载前需要注册账号并登陆。

3.1.2 安装

  • 解压,并进入./vtune_amplifier_xe_2016_update2目录
  • 执行./install.sh,需用root权限。
    默认的安装目录是:/opt/intel/vtune_amplifier_xe_2016

3.1.3 设置环境变量

csh/tcsh 用户: # source <install_dir>/amplxe-vars.csh
bash     用户: # source <install_dir>/amplxe-vars.sh

3.2. 访存分析

3.2.1 执行命令

# amplxe-cl -c memory-access -knob analyze-mem-objects=true -data-limit=0 \
-d 60 --  ./a.out
# amplxe-cl  -report summary

3.2.2 与访存有关的事件

这里列出了CPU记录的所有事件。

事件 含义
INST_RETIRED.ANY 指令执行的计数
CPU_CLK_UNHALTED.THREAD 非停机状态花费的机器周期计数
CYCLE_ACTIVITY.STALLS_L1D_PENDING 由一级缓存缺失导致的执行受阻的机器周期计数
CYCLE_ACTIVITY.CYCLES_NO_EXECUTE 所有执行受阻的机器周期计数
CYCLE_ACTIVITY.STALLS_L2_PENDING 由二级缓存缺失导致的执行受阻的机器周期计数
CYCLE_ACTIVITY.STALLS_LDM_PENDIN 所有因内存原因而执行受阻的机器周期计数
MEM_TRANS_RETIRED.LOAD_LATENCY_GT_4 载入内存数据延时超过4个时钟周期的计数
MEM_LOAD_UOPS_RETIRED.LLC_MISS_PS 内存数据载入过程中三级缓存缺失的计数
MEM_UOPS_RETIRED.ALL_LOADS_PS 内存数据载入微操作的计数
MEM_UOPS_RETIRED.ALL_STORES_PS 内存数据存储微操作的计数
MEM_LOAD_UOPS_RETIRED.LLC_HIT_PS 三级缓存命中的微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.LOCAL_DRAM 三级缓存缺失且从本地内存得到数据的载入微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.REMOTE_DRAM 三级缓存缺失且从远端内存得到数据的载入微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.REMOTE_HITM 三级缓存缺失且从远端缓存得到数据的载入微操作的计数
MEM_LOAD_UOPS_LLC_MISS_RETIRED.REMOTE_FWD 三级缓存缺失且通过远端缓存转发而得到数据的载入微操作的计数
Total_Latency_MEM_UOPS_RETIRED.ALL_LOADS_PS 数据载入微操作产生的全部延时
Total_Latency_MEM_TRANS_RETIRED.LOAD_LATENCY_GT_4 由延时超过4个时钟周期的数据载入微操作产生的全部延时
Total_Latency_MEM_UOPS_RETIRED.ALL_STORES_PS 数据存储微操作产生的全部延时
Total_Latency_MEM_LOAD_UOPS_RETIRED.LLC_HIT_PS 三级缓存命中的数据载入微操作产生的全部延时
Total_Latency_MEM_LOAD_UOPS_RETIRED.LLC_MISS_PS 三级缓存缺失的数据载入微操作产生的全部延时

部分事件的含义可能理解的有错误,欢迎指正。

vtune性能分析工具--找出程序性能瓶颈

1. 概述 VTune是Intel一个比较强大的性能分析软件。主要包括三个小工具: (1)Performance Analyzer:性能分析,找到软件性能比较热的部分,一般也就是性能瓶颈的关键点。...
  • vevenlcf
  • vevenlcf
  • 2016年04月20日 10:42
  • 2101

intel vtune的安装与使用

因特尔Vtune™
  • light_lj
  • light_lj
  • 2014年07月31日 19:41
  • 4334

intel vtune Lisence文件 亲测全版本破解

  • 2015年06月02日 17:20
  • 5KB
  • 下载

Intel开发工具之VTune

  一般编译的程序在进行VTune的Call Graph分析时会遇到无法找到relocation 错误,只需要加上/fixed:no连接选项即可。...
  • quanben
  • quanben
  • 2006年10月09日 13:09
  • 943

英特尔VTune 性能分析器入门

英特尔® VTune™ 性能分析器通过图形用户界面简化应用调试流程,无需重新编译。因为它与编译器和编程语言无关,因此可用于 C、C++、Fortran、C#、Java、.NET 等多种语言。英特尔 V...
  • xhhjin
  • xhhjin
  • 2011年12月02日 15:26
  • 8466

vtune (英特尔VTune™ 性能分析器)的安装过程

vtune (英特尔VTune™ 性能分析器)的安装过程 vtune可通过图形用户界面轻松优化应用性能,而且无需重新编译。—— [百度百科]    由于在开发项目中需要用到 vtune 分析性能,...
  • huangjw_806
  • huangjw_806
  • 2016年11月03日 22:19
  • 2154

Intel VTune Amplifier XE 使用

VTune是 Intel 一个比较强大的性能分析软件。下载地址:intel-vtune-amplifier-xe
  • fengfengdiandia
  • fengfengdiandia
  • 2017年08月10日 13:19
  • 871

Intel Vtune License 2016 注册文件 windows亲测可用

  • 2016年01月11日 18:34
  • 5KB
  • 下载

多线程程序评测工具--Intel Vtune 安装及使用

2.Vtune 下载,安装 Vtune 有 windows 版本和 linux 版本,有收费的,试用的,免费的。本人使用的是一款试用版本, vtune 地址http://software.intel...
  • vbskj
  • vbskj
  • 2014年11月17日 06:21
  • 6575

Intel VTune Amplifier基本使用说明

  • 2012年02月20日 12:08
  • 814KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Intel VTune 访存分析
举报原因:
原因补充:

(最多只允许输入30个字)