Jn..-CSDN博客

原创 rk1126, 实现 yolov8 目标检测

基于 RKNN 1126 实现 yolov8 目标检测。

2024-01-21 01:50:43 2449 9

原创基于 OpenVINO, yolov5 推理

OpenVINO 是英特尔开发的跨平台深度学习工具包。该名称代表“开放式视觉推理和神经网络优化”。OpenVINO 专注于通过面向英特尔硬件平台的一次写入、随处部署的方法优化神经网络推理。● OpenVINO 工具包，由开源社区支持● Intel Distribution of OpenVINO toolkit，由 Intel 支持。

2024-01-21 01:49:50 1315

原创 yolov8x-p2 实现 tensorrt 推理

yolov8x-p2, tensorrt 实现.

2023-10-23 23:00:21 2117 5

原创实时语义分割网络 BiSeNet 训练自定义数据集

BiSeNet是一种新的双向分割网络，设计了一个带有小步长的空间路径来保留空间位置信息生成高分辨率的特征图；同时设计了一个带有快速下采样率的语义路径来获取客观的感受野。在这两个模块之上引入一个新的特征融合模块将二者的特征图进行融合，实现速度和精度的平衡。

2023-08-13 01:40:27 678

原创 RK1126 NPU yolov5 6.2

RK1126, c++ yolov5 6.2 demo

2023-06-06 22:49:19 702

原创 Rk1126 实现 yolov5 6.2 推理

基于 RK1126 实现 yolov5 6.2 推理.

2023-05-28 10:04:44 1457

原创 Tensorrt 实现 yolov5x + dcnv2

由于固定的几何结构，CNN固有地限制了模拟几何转变。本篇论文我们引入了两个模块来加强CNN转变模拟能力，称之为可变卷积和可变Roi 池化。这些都是基于，在没有额外监督的情况下，通过额外的偏移量来增加模块中的空间采样位置，并从目标任务中学习偏移量。新模块可以替换CNN中的普通模块，并且能通过标准的反向传播进行端到端训练，得到的成为可变卷积网络。大量实验表明这个模块性能确实有提升。

2023-03-21 01:04:05 2244 2

原创 Redhat8 安装 cuda11.8 + cudnn 8.6 + trt8.5.3 保姆级教程

redhat8系统，全程记录安装 cuda11.8+cudnn8.6+tensorrt8.5.3.

2023-03-17 10:30:08 3613 1

原创 FFmpeg/OpenCV 实现全屏斜体水印

基于opencv ,ffmpeg 实现全屏斜体水印。支持字体、字号等设置。

2023-02-25 01:10:48 1997 3

原创 windows 基于 MediaPipe 实现 Holistic

MediaPipe Holistic pipelines 集成了姿势、面部和手部组件的独立模型，每个组件都针对其特定领域进行了优化，每个组件的推断输入图不同。MediaPipe Holistic 首先通过 BlazePose 的姿势检测器和后续的关键点模型来估计人的姿势。然后，利用推断出的姿势关键点，为每只手和脸部推导出三个感兴趣区域（ROI）裁剪，并采用 re-crop 模型来改进 ROI然后，pipelines 将全分辨率输入帧上裁剪这些 ROI，并应用特定任务的模型来估计它们对应的关键点。

2022-12-11 22:00:46 2036 3

原创搭建 HRNet-Image-Classification，训练数据集

This is the official code of high-resolution representations for ImageNet classification.

2022-11-23 13:35:55 784

原创基于SCRFD，训练人脸数据集

SCRFD is an efficient high accuracy face detection approach which initially described in Arxiv, and accepted by ICLR-2022.

2022-10-22 01:22:41 1711

原创基于Tensorrtx 实现 darknet Yolov4-tiny 模型

基于tensorrt , 实现 darknet版 yolov4-tiny

2022-08-26 23:20:44 711 12

原创 HRNet-Facial-Landmark-Detection 训练自己数据集

微软亚洲研究院视觉计算组提出的一种新型主干网络结构，可以学到高分辨率表征，有效的提高了人脸关键点检测的性能。

2022-07-27 01:03:23 2109 28

原创 raspberry pi 4 CSI Carmera + 智能识别 + 推送RTMP

OS 💻 Linux raspberrypi 5.15.32-v7l+ #1538 SMP Thu Mar 31 19:39:41 BST 2022 armv7l GNU/Linux测试相机 ⚡️vcgencmd get_camera ：验证相机是否好用raspistill -v -o test.jpg ：测试拍照代码 💥设置相机参数 (分辨率，帧率，像素格式等)av_dict_set(&pOptionsDict_, “f”, “v4l2”, 0); 等同于 av_

2022-05-28 21:56:08 467

原创 rpi4 实现 qiuqiu - Ultralight-SimplePose

qiuqiu Ultralight-SimplePose：https://github.com/dog-qiuqiu/Ultralight-SimplePose💻 OSLinux raspberrypi 5.10.60-v8+ #1448 SMP PREEMPT Sat Aug 21 10:48:18 BST 2021 aarch64 GNU/Linux⚡️ 安装 protobuf sudo apt-get install autoconf automake libtool git clo.

2022-05-02 23:03:13 824

原创 Raspberry pi 4b 基于 FFmpeg，硬编解码视频帧，实现 RTSP 推流

Raspberry pi 4b , 基于ffmpeg , 读取rtsp视频流，硬编解码视频流，加水印, 推送RTSP .OSraspberry pi 4b 8g armv7l GNU/Linux搭建 FFmpeg(4.1.1) 环境 ⭐️⭐️ 安装 x264下载 x264 https://ftp.videolan.org/pub/x264/snapshots/安装1. ./configure --disable-shared --enable-static --enabl..

2022-04-16 00:51:49 6072 3

原创 DeepStream 多路拉取RTSP视频流

DeepStream 多路拉取rtsp视频流

2022-03-07 23:35:56 5482 19

原创 DeepStream 部署 RTSP + scaled-yolov4 (tensorrtx)

DeepStream应用程序将深度神经网络和其他复杂的处理任务引入到流处理管道中，以实现对视频和其他传感器数据的近实时分析。从这些传感器中提取有意义的见解为提高运营效率和安全性创造了机会。例如，摄像头是当前使用最多的物联网传感器。在我们的家中，街道上，停车场，大型购物中心，仓库，工厂中都可以找到相机–无处不在。视频分析的潜在用途是巨大的：访问控制，防止丢失，自动结帐，监视，安全，自动检查（QA），包裹分类（智能物流），交通控制/工程，工业自动化等。

2022-03-06 21:01:37 12043 4

原创编译 openvidu-server-kms:2.20.0 docker image

最近一直在学习openvidu相关知识，在此记录下如何搭建openvidu server 以及如何重新编译 openvidu-server-kms docker image.Openvidu 官网: https://openvidu.io/搭建 Openvidu Server安装 docker & docker composesudo apt-get install apt-transport-https ca-certificates curl gnupg-agent sof.

2022-02-26 22:59:57 1349

原创 windows 基于 MediaPipe 实现 HandTracking

The ability to perceive the shape and motion of hands can be a vital component in improving the user experience across a variety of technological domains and platforms. For example, it can form the basis for sign language understanding and hand gesture co.

2022-01-13 23:31:06 4265 21

原创 windows 基于 MediaPipe 实现 IrisTracking

谷歌日前发布了用于精确虹膜估计的全新机器学习模型：MediaPipe Iris。所述模型以MediaPipe Face Mesh的研究作为基础，而它无需专用硬件就能够通过单个RGB摄像头实时追踪涉及虹膜，瞳孔和眼睛轮廓的界标。利用虹膜界标，模型同时能够在不使用深度传感器的情况下以相对误差小于10％的精度确定对象和摄像头之间的度量距离。请注意，虹膜追踪不会推断人们正在注视的位置，同时不能提供任何形式的身份识别。MediaPipe是一个旨在帮助研究人员和开发者构建世界级机器学习解决方案与应用程序的开源跨平台..

2021-12-30 00:20:24 4237 11

原创 Tensorrt 加速 OpenPose

关于OpenPose OpenPose人体姿态识别项目是美国卡耐基梅隆大学（CMU）基于卷积神经网络和监督学习并以caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人，具有极好的鲁棒性。是世界上首个基于深度学习的实时多人二维姿态估计应用，基于它的实例如雨后春笋般涌现。人体姿态估计技术在体育健身、动作采集、3D试衣、舆情监测等领域具有广阔的应用前景，人们更加熟悉的应用就是抖音尬舞机。OpenPose项目Github链接：https://github.c.

2021-09-11 16:13:30 1631 3

原创 windows 基于 MediaPipe 实现 PoseTracking

MediaPipe是用于构建跨平台多模态应用ML管道的框架，其包括快速ML推理，经典计算机视觉和媒体内容处理（如视频解码）。在2019年6月举行的CVPR大会，MeidaPipe正式开源，版本是v0.5.0。自那以后，谷歌陆续发布了一系列的ML管道示例。日前，谷歌撰文介绍了又一个MediaPipe示例：Object Detection and Tracking。谷歌首次描述了新发布的Box Tracking解决方案，并解释了它是如何与Object Detection结合并提供一个对象检测与追踪系统。.

2021-07-29 14:45:18 10152 67

原创基于FFmpeg，实现 8k 16bit 立体声转码 16k 16bit 单声道。

基于FFmpeg，实现 8k 16bit 立体声转码 16k 16bit 单声道。命令 ffmpeg -i original.wav -ac 1 -ar 16000 new.wav代码实现设置重采样数据输入: 立体声、双通道、8k、16bit输出: 单声道、单通道、16k16bit// 准备重采样 struct SwrContext* swr = swr_alloc(); av_opt_set_int(swr, "in_channel_count",..

2021-04-26 09:53:34 6084

原创 window10 基于 Tesseract，实现 ocr 识别

关于 window下编译 Tesseract，一些步骤忘记了,这里简单记录下过程，详细编译过程，请参考下面提供的链接文章。本文主要讲解如何在训练时候，解决出现 " couldn’t find a matching blob" 错误。Tesseractwindow编译编译下载 cmake , cppan ( https://cppan.org/client/)编译 tesseract 之前，需编译 leptonica(1.76.0) , libpng , libjpeg...

2021-04-23 23:51:14 1069

原创 Python 调用 C++ 动态库几种常用使用方法

最近使用Python调用c++动态库，下面简单介绍下几种使用Python调用C++动态库代码参数是基本类型extern "C" DLL_TEST_API int add(int a , int b);def add(): add = dll.add add.argtypes = [c_int, c_int] add.restype = c_int res = add(c_int(1), c_int(2)) print(res)参数.

2021-04-11 21:07:00 5887

原创 win10下安装 Detectron2(0.4) (VS2019 + cuda11 + pytorch1.8)

Detectron2是 Facebook AI Research 推出的第二代CV库，它不但进一步集成了最新的目标检测算法,，而且是对先前版本 Detectron 的完全重写，号称目标检测三大开源神器之一(Detectron2/mmDetection（MMDetection专栏开篇）/SimpleDet)。源自最初的maskrcnn-benchmark库。

2021-03-23 00:42:26 4068 18

原创基于opencv ，实现螺丝松动检测

目前地铁上检修螺丝后，会涂抹一种红色标记线，来代表检测完成，日后检修员就可以通过肉眼来观察螺丝是否松动，这样可以大大提高检修的效率问题。所以我们参照这个思路，通过opencv来实现螺丝是否松动检测。

2021-02-19 22:30:26 9547 23

原创基于 HPSocket , 实现 socket 通讯

HP-Socket 是一套通用的高性能 TCP/UDP/HTTP 通信框架，包含服务端组件、客户端组件和 Agent 组件，广泛适用于各种不同应用场景的 TCP/UDP/HTTP 通信系统，提供 C/C++、C#、Delphi、E（易语言）、Java、Python 等编程语言接口。HP-Socket 对通信层实现完全封装，应用程序不必关注通信层的任何细节；HP-Socket 提供基于事件通知模型的 API 接口，能非常简单高效地整合到新旧应用程序中。

2021-02-02 23:01:15 7465 5

原创基于TensorRT C++ API 加速 TF 模型

在推理过程中，基于 TensorRT 的应用程序的执行速度可比 CPU 平台的速度快 40 倍。借助 TensorRT，您可以优化在所有主要框架中训练的神经网络模型，精确校正低精度，并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台中。TensorRT 以 NVIDIA 的并行编程模型 CUDA 为基础构建而成，可帮助您利用 CUDA-X 中的库、开发工具和技术，针对人工智能、自主机器、高性能计算和图形优化所有深度学习框架中的推理。TensorRT 针对多种深度学习推理应用的生产部署提供 IN

2020-11-27 17:49:37 1407 11

原创 Ubuntu18.04 实现串口通信

最近由于项目需要，研究了关于在ubuntu下串口通信的功能实现。期间遇到一些问题，跟大家分享下。1. 代码comm_service.h#ifndef comm_service_h#define comm_service_h//串口相关的头文件#include <stdio.h> /*标准输入输出定义*/#include <stdlib.h> /*标准函数库定义*/#include <unistd.h> /*Unix 标准函数...

2020-11-08 15:56:03 6953 12

原创 C# 参考 cool edit 样式, 绘制音频波形图

由于项目需要音频波形显示，所以仿照 Cool Edit 实现一个简易的音频播放器。部分代码参考：https://github.com/naudio/NAudio.WaveFormRenderer效果图:*（空格键播放选中区域）核心代码：using System;using System.Drawing;using System.Windows.Forms;namespace JAudioWave{ public partial class JAudio...

2020-10-11 00:00:22 2758 1

原创 Ubuntu 18.04 CPU 安装 OpenCL

由于 Windows 驱动中自动包含了OpenCL驱动，但 Linux系统需要自己安装OpenCL驱动。所以，一开始在虚拟机中搭建Ubuntu 18.04 环境，但无论怎么搞都找不到核显，索性放弃，在电脑装了个ubuntu18.04 系统，重新搞，果然成功了，貌似是虚拟机中找不到核显，具体原因不详。一: 系统Intel(R) Core(TM) i7 8550U +Intel(R) UHD Graphics 620二：安装下载 OpenCl SDK https:...

2020-06-15 22:40:07 6420 6

原创基于人脸特征点实现疲劳检测

为了有效监测驾驶员是否疲劳驾驶、避免交通事故的发生,提出了一种利用人脸特征点进行实时疲劳驾驶检测的新方法。对驾驶员驾驶时的面部图像进行实时监控,首先检测人脸,并利用ERT算法定位人脸特征点;然后根据人脸眼睛区域的特征点坐标信息计算眼睛纵横比EAR来描述眼睛张开程度,根据合适的EAR阈值可判断睁眼或闭眼状态;最后基于EAR实测值和EAR阈值对监控视频计算闭眼时间比例(PERCLOS)值度量驾驶员主...

2020-04-29 13:35:51 14144 36

原创 YOLOV3 网络结构学习笔记

注：本文非原创，文章内容都是引用以下文章中，本文只是记录学习笔记。https://blog.csdn.net/leviopku/article/details/82660381https://blog.csdn.net/qq_41994006/article/details/88789566https://blog.csdn.net/qq_37541097/article/detai...

2019-10-24 00:05:39 27040 17

原创基于FFmpeg H264 + G711A 音视频裸流合并 MP4文件 ( G711A 转 AAC)

由于 FFmpeg 只支持H264+AAC的mp4封装格式的，并不支持H264+G711的mp4封装格式。所以需要将G711a转码成AAC格式的,然后封装成mp4文件，但网上有说通过修改movenc.c文件，重新编译ffmpeg，能支持H264+G711a的，但我尝试编译，没有成功，你们可以尝试编译一下，要是成功了，希望能一起分享一下，哈哈。文章链接:https://bl...

2019-10-01 11:45:55 7780 6

原创 VAssistX + VS2017 常用快捷键

Shift+Alt+O- 查找文件 Shift + Alt + S- 快速查找一个标识符，包括全局变量，函数，类，宏等等 Shift + Alt + F-查找标识符所有被引用的位置 Alt + G- 函数定义和声明的跳转 Ctrl + Tab- 切换标签 Alt + Shift + R：当想改掉一个类名或是其他东西的命名时，可能已经有很多地方引用这个名称了，这时按下此快捷键，可...

2019-04-12 16:19:59 842

原创 Winform 视频流叠加透明控件. 使用DSkin皮肤框架实现

前言:之前实现了再winform窗体上叠加一些透明控件,但效果有一些瑕疵,图片边框会有一些锯齿。后来花了99元再网上买了DSkin皮肤框架授权码,实现了下效果,感觉还不错。效果图:主窗体是海康相机如果没有海康相机，需替换其他视频组件窗体。本文侧重点实现视频上叠加透明控件。。。使用:1.demo中实现了左侧抽屉式菜单，右侧抽屉式菜单,小视频信息框，自定义拖...

2019-03-22 15:08:15 2694 2

windows 编译 FFmpeg2.5.11 支持 G711 ，H264编解码

window 编译 FFmpeg 2.5.11, 支持 G711 和 H264 编解码，包含 ( dll ,include ,lib)

2020-03-16

仿照 Cool Edit 样式，绘制音频波形图

仿照 Cool Edit 样式，实现简易音频播放器，可左右滑动选择音频播放区域，空格键播放选中区域。

2020-10-10

Boost_lib_1.61.rar

window Boost1.61 64 编译，包含 libboost_chrono-vc140-mt-1_61.lib，libboost_date_time-vc140-mt-1_61.lib，libboost_filesystem-vc140-mt-1_61.lib，libboost_thread-vc140-mt-1_61.lib等，可直接使用

2019-08-04

Linux下，基于CImg实现实时绘制音频波形

Linux下，基于CImg, 实现实时绘制音频波形。(音频采集使用读取文件，将文件分成N等分，来模拟实时音频效果 )，样式很beautiful。

2020-07-22

基于 FFmpeg2.5.11 实现 g711+h264 写入 mp4 文件 ( 不支持H264编解码 )

实现代码主要参考雷神的视音频复用器（muxer）,来实现 g711+h264 写入MP4文件。 (不支持H264编解码) 雷神: https://blog.csdn.net/leixiaohua1020/article/details/39802913。

2020-03-15

face_landmark-tf1.rar

基于https://blog.csdn.net/qq_35606924/article/details/99711208 改编，提高 windows 下训练速度。

2020-04-26

Opencv4.4+VINO2020.3.rar

Opencv4.4 + OpenVINO2020.3, 支持 YOLOV4 VINO 加速、OpenCL。下载可直接使用，亲测可用。

2020-08-25

ffmpeg4.1.1.rar

win10下, 使用 msys2 编译ffmpeg4.1.1，支持 1）qsv 编解码 2）cuda 编解码 3）g711

2020-12-12

C++ 实现 tensorflow mfcc

实现 tensorflow 中 mfcc获取，脱离tensorflow运行。主要实现: 1) DecodeWav 2) AudioSpectrogram 3) Mfcc

2020-12-12

protobuf-3.9.0.rar

google团队开发的用于高效存储和读取结构化数据的工具 ,windows编译。

2019-07-31

VAssistX + VS2017

VAssistX 破解版亲测 VS2017可用

2019-04-12

FeatureTool.rar

dlib 特征点标注工具，增加撤销，删除当前图层描绘点，删除当前图片等功能，有助于提高标注效率。 ( 标注时，注意及时保存 ) alt + d : 删除当前图片 ctrl+c: 删除当前全部图层 ctrl+z: 删除上一个描绘的节点 ctrl + s: 保存 up:上一张 down:下一张

2020-04-26

C# 语音端点检测 ( VAD )

1.Python 基于Keras 训练的样本模型。 2.采用 C# 使用 Python 训练的样本模型，进行语音端点检测。

2019-05-02

windows 编译 ffmpeg-2.5.11 , 支持 G711 ,包含 dll . lib. include (不支持H264编解码)

由于现有的FFmpeg版本不支持 G711 + H264 ，所以需要重新编译. 路径: ffmpeg-2.5.11\install-2.5 (不支持H264编解码)

2020-03-14

FFmpeg_muxer.rar

基于 FFmpeg 将 H264 + G711A 裸流保存 Mp4文件。主要功能代码实现，需要结合自己的需求，来完成功能的实现.

2019-09-30

CvvImage.rar

在OpenCV高版本里CvvImage类被取消，如果想继续沿用以前的CvvImage,则需要手动添加CvvImage.

2019-07-26

gflags-master.rar

google开源的一套命令行参数解析工具, windows 编译后，包含动态库等.

2019-07-31

glog-master.rar

一个应用程序级的日志记录的库,windows编译，包含debug，Release版本类库.

2019-07-31

lmdb-mdb.master.rar

基于Btree-based的高性能mmap key-value数据库, windows编译动态库.

2019-07-31

leveldb-master.rar

C++ 开发的一个快速的键值对存储数据库 leveldb windows编译动态库

2019-07-31

基于 DipG-Seg ，实现点云 PCL地面分隔

基于 DipG-Seg ，实现点云 PCL地面分隔.

2024-12-04

Jeston Agx Orin, 读取gmsl相机，cuda解码rgb数据

基于Jeston Agx Orin, 读取gmsl相机，cuda解码rgb数据后进行智能识别等处理操作.

2024-11-20

tensorrtx 实现 yolov5 + dcnv2

将 yolov5x yaml backbone 前3层 conv 改成 dcnconv 参考 tensorrx yolov5 , 实现 tensorrt 推理。 backbone: # [from, number, module, args] [[-1, 1, Conv, [64, 6, 2, 2]], # 0-P1/2 [-1, 1, DCN, [128, 3, 2]], # 1-P2/4 [-1, 3, C3, [128]], [-1, 1, DCN, [256, 3, 2]], # 3-P3/8 [-1, 6, C3, [256]], [-1, 1, DCN, [512, 3, 2]], # 5-P4/16 [-1, 9, C3, [512]], [-1, 1, Conv, [1024, 3, 2]], # 7-P5/32 [-1, 3, C3, [1024]], [-1, 1, SPPF, [1024, 5]], # 9 ]

2023-03-20

TA关注的人

windows 编译 FFmpeg2.5.11 支持 G711 ，H264编解码

仿照 Cool Edit 样式，绘制音频波形图

Boost_lib_1.61.rar

Linux下，基于CImg实现实时绘制音频波形

基于 FFmpeg2.5.11 实现 g711+h264 写入 mp4 文件 ( 不支持H264编解码 )

face_landmark-tf1.rar

Opencv4.4+VINO2020.3.rar

ffmpeg4.1.1.rar

C++ 实现 tensorflow mfcc

protobuf-3.9.0.rar

VAssistX + VS2017

FeatureTool.rar

C# 语音端点检测 ( VAD )

windows 编译 ffmpeg-2.5.11 , 支持 G711 ,包含 dll . lib. include (不支持H264编解码)

FFmpeg_muxer.rar

CvvImage.rar

gflags-master.rar

glog-master.rar

lmdb-mdb.master.rar

leveldb-master.rar

基于 DipG-Seg ，实现点云 PCL地面分隔

Jeston Agx Orin, 读取gmsl相机，cuda解码rgb数据

tensorrtx 实现 yolov5 + dcnv2

基于opencv, 实现全屏斜体水印，支持字体，文字等设置

raspberry pi 4b 读取 csi相机 + 智能识别 + 推送rtmp

raspberry pi 4b , 基于ffmpeg 实现RTSP访问，硬编解码推送RTSP

win10 编译好的libjpeg库 (jpeg-9d)

基于FFmpeg，读取RTSP, 编解码音视频流，视频流添加文字，保存mp4

hand_tracking.zip

mp4Info,mp4Box,untrunc 视频查看修复工具集

基于HPSocket实现 socket 通讯 - 修正版 ( C# demo 、 C++ dll )

编译libjpeg win32.mak

iris_tracking_sample.zip

基于FFmpeg， 实现 8k 16bit 立体声 转码 16k 16bit 单声道。

ffmpeg4.1.rar

基于MediaPipe 实现姿态检测

Python调用C++几种常用使用方法

jTessBoxEditorFX 绘制box工具

tesseract-4.1.0.rar

ffmpeg_cuda_4.1.rar

yolov5 （相关搜索：目标检测|数据集）

请问ios ftp支持上传/下载断点续传吗 ？？

使用 opengl 渲染多张连续图片 图片水平方向出现抖动问题

使用 opengl 渲染多张连续图片 图片水平方向出现抖动问题

Android 采集摄像头数据 ， 通过ffmpeg推送流至服务器

基于FFmpeg，实现 8k 16bit 立体声转码 16k 16bit 单声道。

请问ios ftp支持上传/下载断点续传吗？？

使用 opengl 渲染多张连续图片图片水平方向出现抖动问题

使用 opengl 渲染多张连续图片图片水平方向出现抖动问题

Android 采集摄像头数据，通过ffmpeg推送流至服务器