自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(640)
  • 资源 (5)
  • 收藏
  • 关注

原创 too many blocks in cooperative launch at cudaLaunchCooperativeKernel

因为block dim=704,现在每个SM上已经都有704*2=1408个threads了,现在每个SM还能容纳2048-1408=640个threads,而我们的每个block是704,所以就出现too many error了。这是因为当grid dim固定为256的时候,当block dim=704的时候,每个sm上最多能放2个block,所以最多能launch108*2=216个block,其余的block加载不上去,为什么?当执行到256*704的时候失败,block 不能超过 108。

2024-09-04 16:11:49 1054

原创 A100 显卡关键参数

首先看top图,A100包含有108个SM,每个SM最大可以容纳1024个threads.

2024-08-29 17:01:06 306 1

原创 NVCodec 解码案例

【代码】NVCodec 解码案例。

2024-08-19 17:18:32 157

原创 ffmpeg-cavs识别广电流

如下如果想要ffmpeg识别广电的流,

2024-08-05 18:50:02 306

原创 Tsan-ThreadSanitizer之As if synchronized via sleep

最近在调试ffmpeg的时候,加入了tsan,结果出现了下面提示:具体什么意思呢,找了很久找到了官方介绍:

2024-08-02 11:31:22 291

原创 ThreadSanitizer: signal-unsafe call inside of a signal

下面的signal handler比如是一个pthread_once().这一类warrning,那么大概率你是犯了下面的错。

2024-07-29 16:58:52 254

原创 cuda-thread-block-grid详细解释

如题,翻译过来变味了,原汁原味更加好。

2024-07-17 11:21:45 810

原创 MPI hello world SSH 免密互联

目标:我们想实现2台主机免密互联,将跑起来假设hostname是node01,node02,(Linux shell窗口一般是UserName@HostName,node1和node2一定要和HostName一样)使用IP免密登录(用户名相同时,ssh+主机名;如果不同,登录方式就是 ssh+用户名@IP地址)可以参考:https://help.ubuntu.com/community/MpichCluster。

2024-07-04 19:52:55 473

原创 CUDA系列-driver-architecture-0

为什么要费这么大劲把这些整理出来呢?CUDA Driver SW ArchitectureIn a nutshell, the CUDA Driver manages GPU resources and schedules computing tasks on the GPU.The driver provides user APIs to allocate memory on the GPU, to copy data into, out of, and between the allocated mem

2024-06-19 18:18:12 1033

原创 CUDA系列-Mem-9

你可能觉得奇怪,这些不是cuda programming model中的内容啊,其实这是cuda runtimes ,还记得那份泄漏出来的代码吗?This section describes static aspects of the CUSW_UNIT_MEM_MANAGER unit’s architecture.The CUSW_UNIT_MEM_MANAGER provides abstractions for allocating memory by other units of CUDA dr

2024-06-19 17:59:03 1056

原创 CUDA系列-Event-9

**//!//!//!/**//!/**//!//!//!//!//!//!//!//!//!//!//!//!//!//!//!//!//!} capture;} local;//!//!//!??//!//!//!//!} local;//!//!//!} egl;//!//!//!} nvn;/**//!//!//!/**//!/**//!//!//!//!//!//!//!//!//!

2024-06-19 17:36:37 893

原创 CUDA系列-Kernel Launch-8

本章主要追踪一下kernel launch的流程,会不断完善。

2024-06-19 16:34:13 942

原创 CUDA系列-Channel-7

32641。

2024-06-19 16:25:35 65

原创 CUDA系列-pushbuffer-6

这是一个环形队列。

2024-06-19 14:37:59 156

原创 CUDA系列-GPFIFO-5

gpfifo是一个基础组件,channel中的FIFO基础,channel就是通过它来作为CPU和GPU之间的通道以及marker的容器。

2024-06-19 14:15:06 603

原创 CUDA系列-Marker-4

The CUSW_UNIT_SYNC unit provides mechanisms to track work completion on GPU, CPU, and other Tegra engines (such as ISP, VIC, PVA, DLA). GPUs use several hardware synchronization primitives for task tracking and synchronization, which are abstracted away in

2024-06-19 11:53:25 145

原创 CUDA系列-Semaphore-3

*** @{//!/**//!/**//!//!/**//!//!//!/**//!/**//!//!/**//!//!//!4/*** @{//!/**//!/**//!//!/**//!//!//!/*** @{//!/**//!/**//!//!/**//!//!//!/*** @{//!/**//!/**//!//

2024-06-19 11:44:19 115

原创 CUDA系列-QMD-2

QMD是CUDA 用来追踪kernel launch的,主要有两部分组成QMD和QMDPOOL。

2024-06-19 11:18:23 146

原创 CUDA系列-Stream-1

This section describes static aspects of the CUSW_UNIT_STREAM unit’s architecture.和stream相关的其它Unit主要有Channel,Sync,MemmgrA CUDA stream is a software FIFO queue that allows commands like kernel launch and memcpy to be enqueued in it. The enqueued commands

2024-06-19 11:08:15 301

原创 Execel 数据分析-如何使用筛选-图表-透视图-处理多变量数据集

比如下面的例子,测试GPU的kernel吞吐量,其中stream cnt,grid dim,block dim 产生后面几个变量,latency_per_launch(ns),latency_per_block(ns),latency_per_thread(ns)如果你的数据有很多个变量,比如横轴X有a,b,c,d等几个变量,Y轴也有个变量,那么这时候就用得到。这样可以根据筛选来查看变化趋势图,那么上面的是怎么做到的呢?这里用到了一个关键功能:数据透视功能。其实会自动所有数据,

2024-05-27 13:01:55 284

原创 CPU 性能分析 火焰图 Flame Graph

浏览器打开svg文件,查看顶层的宽度比较大的函数,平顶的表示性能可能存在问题,ctrl +F可以搜索函数名,得到函数的cpu利用率。原文链接:https://blog.csdn.net/muaxi8/article/details/133769264。2.获取Flame Graph。

2024-05-16 16:51:57 328

原创 CPU利用率使用教程

下面核心是怎么分析生成的。$:nmon #运行。

2024-05-14 15:16:40 358 1

原创 英伟达解码性能NVDEC

如果你能打开官网,请看这里:NVDEC Application Note下面是摘录:

2024-05-13 17:41:22 232

原创 随想2024

我看见夜晚的月亮滞留在渡口。把最后一点黄昏,也埋了进去。一个季节牵引着另一个季节。

2024-05-09 22:23:19 276

原创 CUDA入门系列课程,从最基础着手

CUDA入门系列课程,从最基础着手,突出的就是一个字“细”!!github项目包含代码、博客、课件pdf下载地址:https://github.com/sangyc10/CUDA-code!

2024-04-24 20:39:05 357

原创 c++实现的一个简易计时器timer

C++实现的一个简易计时器,可以获取到ms。

2024-04-23 11:56:33 248

原创 代码中哪些复杂的结构图是怎么画出来的?

最近找到一个在线的代码架构图生成器,你只要画出结构图,就会自动生成代码示意图:

2024-04-22 10:39:43 258

原创 Linux下GPU虚拟化

首先, mediated 设备框架(mdev),基本上,这部分代码使得内核驱动开始用vfio框架跟接口来支持虚拟pci设备。nvidia 以及intel都采用了这种所谓的mdev机制,将宿主机中的物理GPU分割成多个虚拟设备,以便供多个虚拟机同时使用。第二个, intel 的i915驱动也是采用了mdev初始化支持,当然仍然有很多工作需要去做,例如不能直接登录虚拟机的显示画面,所以必须通过客户机中安装x11vnc或者类似的vnc工具,也有一些稳定性的问题需要解决。在新Linux内核中体验GPU虚拟化。

2024-04-19 17:07:14 363

原创 程序员必须要知道的一个在线专业书网站

截图如下,可以看到,里面有很多数,可以在线看,免得去到处找了。

2024-04-10 15:36:45 199

原创 ubuntu 不产生core dump 文件

发现上面有个双引号,会不会是这里有问题,所以重新设置了一下,把双引号去掉,按照上述操作之后,发现没有什么文件在/corefile中生成。目的:产生coredump 文件。目标机器:UBuntu2004。然后我用下面命令看了一下。

2024-03-28 19:18:25 441

原创 SSH 断开了 - tmux 命令

tmux 是一个终端多路复用器,在终端中可以创建,访问和控制多个终端会话在一个会话中可以打开多个窗口,每个窗口都占据整个屏幕,一个窗口还可以分成多个窗格tmux 让远程终端窗口和会话分离开了,终端窗口关闭时,会话继续在后台运行,新的终端窗口可以随时接入会话,接入之后终端窗口上会显示会话的信息tmux 启动时,会默认创建一个具有单个窗口的会话,在会话屏幕的底部,显示当前会话的信息Linux下 screen 命令的功能与 tmux 命令相似,相比 screen,tmux更易用,功能也更强大安装。

2024-03-24 10:32:08 230

原创 C打印内存16进制

下面是一段C代码打印16进制。

2024-03-05 14:11:19 1131 1

原创 vscode突然连不上服务器了,以前都可以的,并且ssh等其它方式是可以连接到服务器的

过完年回来准备开工干活,突然发现vscode连不上服务器了,奇了怪了,年前都可以的,看了一下报错,如下,发现原来是code-server执行不起来。需要glic2.28而实际上的是2.27,嗯哼,原因找到了。当然它并没有解决我的问题,但是却让我发现了问题所在,我在win10系统命令窗口中输入,因为我服务器不能动,所以采用了另外一种方案,给vscode降低版本,想想就扯淡,百度了一下,搜索到一篇文章具有很大参考价值,vscode官方解决方案,然后在服务器中执行,

2024-02-19 11:14:11 2139 1

原创 git中关于submodule的操作

如果出错,执行。

2023-12-26 19:43:41 576

原创 ffmpeg编译cuvid的时候:ERROR: cuvid requested, but not all dependencies are satisfied: ffnvcodec

确认安装了,大概率是pkg-config没有安装。首先确认有没有安装nv-codec-header。

2023-12-26 16:25:35 766

原创 如何学习英语

首先写一些自己的感言吧,其实从大学的时候就在不断地听英语,学英语,但是到毕业十几年后,英语一直没起到什么作用,当然最有作用的时候就是几次英语面试吧。工作之后有一段学习英语的经历,当时花费了很多时间看了一些英文名著,听了很多英文有声小说,感觉这应该是自己最大的积累吧,后来还赚么学习一下发音。现在重新要捡起来是因为后期工作中大概率要用得上,不要到时候真的用的时候发现晚了。

2023-12-16 17:40:10 626 1

原创 glib编译与实战

【代码】glib编译与实战。

2023-12-12 20:07:11 940

原创 FFmpeg之AVCodec

这一节是最重要的一节,ffmpeg的解码,还是和以前一样,一定是先来一个上下文context,再一个具体的解码器类。AVCodecContext和下面是一个解码器定义,三部分组成,第一部分是设置参数,第二部分是基类,第三部分是具体实现。如果你要实现自己的一个解码器,实现第三部分的那几个回调函数就可以了。结构体定义函数函数调用逻辑慢慢补充

2023-12-12 14:30:35 999

原创 FFmpeg之HWContextType

具体看看结构体定义吧,一大堆函数指针,这些就是你要实现的,不一定全部要实现,实现你自己想要的就可以了,主要的有transfer_data_to/transfer_data_from,map_to/map_from。仔细看上面函数就发现,全部是device mem操作,大白话说就是ffmpeg通过这套机制来实现D2H或者H2D的操作,别无其它。HWContextType算是ffmpeg中为硬解码第三方接口的一个辅助类,它自己有两个辅助子类。那么它辅助硬解码器做什么呢?我们还是通过英伟达的例子来看。

2023-12-12 14:11:48 980

原创 FFmpeg之AVHWAccel

ffmpeg是通过解码起家,所以它内部有很多自己写的软解码器,在这些软解码器的解码过程当中,比如说对于码流中的某些反量化,反变换等操作,把这些操作挪到一块硬件上,这块硬件就是加速设备。这就是hwaccel加速解码的原理,它是在ffmpeg软解码的基础上将一些特定算法加载到硬件上去做。我们可以看看ffmpeg的h264解码器,红框内部的都是h264解码器的加速插件,NVDEC只是其中之一。可以看看AVHWAccel结构体定义,发现有几个关键的函数指针,这些指针就是你需要去实现的。下面我们就说道说道。

2023-12-12 14:01:37 870

nmon chart 分析工具

一个专门分析nmon的小工具,可以生成html图表,比excel的好看一点,使用教程:https://blog.csdn.net/ningmengban/article/details/109095614

2024-05-14

nmon analyser

里面是一个nmon-analyser-v61.xlsm文件,很多人无法下载,所以把它上传到这里来,使用教程:https://blog.csdn.net/qq_45664055/article/details/106338572

2024-05-14

Pytorch深度学习实战代码文件

本资源是pytorch 深度学习实战的代码文件,书中设涉及到的都有。 原书《Pytorch 深度学习实战》 作者:伊莱 斯蒂文斯 牟大恩 译

2023-10-10

oversubscribed command queues in gpus

as gpus become larger and provide an increasing number of parallel execution units, a single kernel is no longer sufficient to utilize all avalliable resources. as a result gpu applications are beginning to use fine grain asynchronous kernels, which are executed in parallel and expose more concurrency. currently the HSA and copute unified device architecture specifications support concurrent kernel launches with the help of multiple command queues.

2023-09-20

sphinx 写作模板 可以作为菜鸡的起步版本

这是公司文档库提供的sphinx模板,可以提供给菜鸟使用。

2023-09-05

这是一款清华大学开发的avs2编解码器,里面有详细的源码

该编解码器是清华大学开发的avs2编解码示例代码,里面有详细的源码,可以供需要的同学参考,该编码器与ffmpeg插件xavs2不一样,它严格遵守了avs2标准,对stuffing bit进行了填充

2023-05-17

这是国产avs编码标准,大家可以下载观看

因为很多同学找不到avs编码器标准,这里提供该标准工大家下载

2023-05-17

这是一个国产avs(jizhun)的编码器,是清华大学编写的,效率还可以,大家可以参考

里面有详细的代码,包括编码器和解码器,严格遵照avs标准,特别是stuffing bit做了填充,ffmpeg中的avs和avs2编码器插件都对这一块没有遵循,导致有些解码器无法解码ffmpeg编码后的avs/avs2

2023-05-17

vc1编码器,可以编码vc1格式的视频

这是一个免费的vc1编码器,非常适合做编解码的同学来做研究。

2023-05-17

nvcodec-master.zip

NVIDIA VIDEO CODEC SDK The source code of this project is come from "Video_Codec_SDK_9.1.23"

2021-04-14

libxl综合文件.zip

这是一个libxl学习版本的库文件,包含动态库libxl.dll 和libxl.lib 还有include 因为是动态库所以不管vs20xx还是debug/release/win32/x64都可以用,

2020-07-06

训练样本180.zip

这个是人脸检测训练样本的180张标准图片,可以配合文章进行样本训练,具体文章可以看我的博客,里面有照片获取和样本训练的详细方式。

2020-06-11

nginx+rtmp服务器配置

windows下搭建基于nginx的rtmp服务器,整个文件包含了所有的相关文档以及bat等,直接可以在电脑上进行配置,亲自使用过,完全通过。

2019-09-24

三菱最新的操作手册说明书,最新下载

这是三菱最新PLC操作手册,里面包含了最新的跟新说明。

2018-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除