Intel性能分析工具Vtune安装和使用简介

最新推荐文章于 2025-03-18 10:58:22 发布

aolitianya

最新推荐文章于 2025-03-18 10:58:22 发布

阅读量5.1k

点赞数 58

分类专栏：性能文章标签：性能优化

本文链接：https://blog.csdn.net/aolitianya/article/details/137911280

版权

性能专栏收录该内容

8 篇文章

订阅专栏

本文介绍了IntelVtuneProfiler，一个用于诊断和优化应用程序性能的工具，涵盖了安装步骤、默认测试用例及各种性能分析功能，如热点检测、多线程分析和微架构优化等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、介绍

Intel Vtune profiler是用于串行和多线程应用程序的性能分析工具，可以帮助软件开发人员对应用程序的性能问题进行分析，支持包括linux和windows在内的多种操作系统。主要功能包括：

性能分析：可以对应用程序进行深入的性能分析，帮助用户了解应用程序在不同的硬件和软件环境下的运行情况。
热点检测：可以识别出程序中的热点部分，指导开发者进行优化。
性能瓶颈分析：通过分析CPU、内存、IO等各个方面的性能，帮助确定应用程序的性能瓶颈。
多线程分析：对于多线程应用程序，能够分析线程的运行状况，包括线程的同步、竞争和死锁等问题。

二、安装

tee > /tmp/oneAPI.repo << EOF
[oneAPI]
name=Intel® oneAPI repository
baseurl=https://yum.repos.intel.com/oneapi
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://yum.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB
EOF

将oneAPI.repo移动到/etc/yum.repos.d目录中，执行

yum install intel-oneapi-vtune

安装vtune工具

如果是使用root用户进行安装的，安装完成后，默认的安装目录是在/opt/intel/oneapi/vtune中，执行

source /opt/intel/oneapi/vtune/latest/env/vars.sh

之后就可以在命令行界面中使用vtune命令了。

为了验证vtune profiler是否能够正确使用以及在安装过程中是否存在某些未知问题，可以运行安装包中的一个自动测试脚本，此脚本会运行对一个示例应用程序的分析

运行如下命令：

sh /opt/intel/oneapi/vtune/latest/bin64/vtune-self-checker.sh

此脚本会运行几分钟进行必要的信息收集，如果一切正常会产生对应的输出。

三、使用

3.1 默认测试用例使用

在vtuned中自带了一个测试用例matrix，目录位于/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix

在vtune的welcome界面点击New Project创建一个新的项目

在Project name栏输入项目名称（自定义），Location输入项目存放路径（任意）

项目创建完成自动进入Configure Analysis目录，Where选择Local Host（默认），Launch Application->Application处选择二进制文件的位置，也可以使用进程pid或者进行整系统的监测，修改WHAT的类型即可

我们这里是/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix，点击start按钮

vtune自动执行分析操作

执行完成后会输出summary

右上部分是一些基本的衡量指标，中间部分是可以进行进一步分析的方向，其中标红是推荐进行分析的方向。

接下来可对应用程序进行性能瓶颈分析，优化，然后再次执行性能分析工作来判断性能是否提升。

下一步分析方向有以下几个点：

算法分析：

热点分析用来查找代码花费时间最多的位置。

异常监测识别频繁重复代码中的性能异常问题。

内存消耗分析分析应用进程的内存消耗情况，仅适用于linux。

微架构分析：

微架构识别CPU流水线中的性能瓶颈。

内存访问分析应用程序的内存，查看CPU的缓存和主存使用情况。

并行性分析：

线程分析线程的并行度，定位并发度低的原因以及代码中的串行瓶颈。

HPC性能分析计算密集型应用程序如何使用CPU、内存和FPU的资源。

IO分析：

分析IO系统、总显得利用率

加速单元：

GPU offload分析应用程序是否存在GPU限制。

GPU热点分析GPU绑定的应用程序执行效率低的问题

CPU/FPGC分析FPGA的利用率

平台分析：

系统概述识别限制性能的平台因素

Platform Profiler手机较长时间内满负荷运行的系统数据

3.2 测试用例分析

matrix用例的功能是一个矩阵乘法器。

可以选择以下任意一种乘法核进行运算，需要在multiply.h头文件中对MULTIPLY的宏定义进行修改然后重新通过make编译程序。

multiply0：最基本的单线程实现

multiply1：最基本的多线程实现

multiply2：使用循环交换和向量化进行优化的实现（使用了编译器的向量选项）

multiply3：使用了cache blocking和data align的优化

multiply4：使用了matrix transposition和loop unrolling的优化

multiply5：使用Intel MKL优化

线程使用方式：线程模型使用系统自定义的，linux上是pthreads，windows上是win32 threads，OpenMP线程模型也可以使用。

修改线程模型：windows上选择使用Release，Release_OMP或者Release_MKL配置

linux上在Makefile文件中修改PARAMODEL为USE_THR,USE_OMP或者USE_MKL

矩阵属性：默认情况下矩阵的大小是2048，如果需要增大matrix的大小可以在multiply.h中重新定义MAXTHREADS的值，需要确保这个值是线程的倍数。默认情况下执行线程数目等于CPU cores的数目,可以修改MAXTHREADS来修改线程数。

vtune自带的测试用例matrix.c文件（在/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix/src目录下）需要修改

将

#include

修改为

#include

否则会报出找不到gettimeofday的错误