金大大诶-CSDN博客

原创图像处理与计算机视觉领域经典论文

目录CNN目标检测语义分割CNNAlexNetLink: https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdfVGGNetLink: https://arxiv.org/pdf/1409.1556.pdfGoogleNetLink: ...

2020-04-15 17:40:18 913

原创人脸与人体相关数据集

行人检测数据集：1.https://www.cis.upenn.edu/~jshi/ped_html/2.http://host.robots.ox.ac.uk/pascal/VOC/voc2012/ PASCAL VOC数据集

2019-11-29 18:31:52 1487 1

原创 ViT对比CNN

Vision Transformer（VIT）与传统的卷积神经网络（CNN）相比，在某些情况下可以表现出更强的性能，这是由于以下几个原因：

2023-06-30 13:05:34 2378

CLIP的核心思想是通过将图像和文本映射到共享的嵌入空间，使相匹配的图像和文本在该空间中的距离较近，而不匹配的图像和文本在该空间中的距离较远。对于不匹配的图像-文本对，CLIP鼓励它们在嵌入空间中的距离较远。通过联合训练图像和文本，CLIP能够获得一个通用的视觉-语言模型，使得该模型在多个视觉和语言任务上表现良好，如图像分类、图像生成、文本描述等。总的来说，CLIP通过对比学习的方式将图像和文本编码到共享的嵌入空间，并利用对比损失函数来学习图像和文本之间的语义关系，从而实现了对图像和文本的理解和表达能力。

2023-06-30 11:06:00 1635

原创 stable-diffusion-webui的安装教程 ubuntu

手动安装虽有些过时，但在自动安装遇到问题的时候只能用手动安装了，我的自动安装就偶尔遇到git clone超时的问题。如果碰到open_clip no transformer的问题。

2023-03-28 16:20:31 2717

原创解决运行stable-diffusion时出现importError

【代码】解决运行stable-diffusion时出现importError。

2023-03-13 17:38:17 2212

原创 faiss安装及openvino安装

项目需要在cpu上做图像检索，特征提取方案使用了openvino+onnx，向量检索方案就使用了faiss-cpu。可以实现在cpu上实时检索。

2023-02-08 11:32:07 161

原创 Ubuntu20上基于c++的openvino开发流程

在Ubuntu20上基于c++的openvino开发流程

2022-12-16 17:32:17 279

原创 TensorRT总结

TensorTR为什么能提升模型的运行速度主要做了两件事情来提升模型的运行速度。TensorRT支持INT8和FP16的计算。深度学习网络在训练时，通常使用32位或16位数据。TensorRT则在网络的推理时选用不怎么高的精度，达到加速推断的目的。TensorRT对于网络结构进行了重构，把一些能够合并的运算合并在一起，针对GPU的特性做了优化。现在大多数深度学习框架是没有针对GPU做过性能优化的，而INVIDIA推出了针对自己GPU的加速工具TensorRT。一个深度学习模型，在没有优化的情况下，比

2022-07-20 13:57:55 403

原创 yolov5训练自定义数据

yolov5训练自定义数据集

2022-06-30 11:04:22 701

原创 CV面试题整理（1）

图像处理基础1. 摩尔纹讲一下？摩尔纹是一种在数码照相机或者扫描仪等设备上，感光元件出现的高频干扰的条纹，是一种会使图片出现彩色的高频率不规则的条纹。摩尔纹因为是不规则的，所以并没有明显的形状规律。2. 相机畸变的原因？畸变是指光学系统对物体所成的像相对于物体本身而言的失真程度，是光学透镜的固有特性，其直接原因是因为镜头的边缘部分和中心部分的放大倍率不一样导致。畸变并不影响像的清晰程度，只改变物体的成像形状，畸变是一种普遍存在的光学现象。3. 图像存储格式知道吗？BMP格式GIF格式（主要用

2022-04-13 11:52:58 4021

原创 arcface

使用深度卷积神经网络（DCNNs）嵌入来表示人脸是人脸识别的首选方法。DCNNs将人脸图像映射到具有较小类内距离和较大类间距离的特征空间中。

2022-04-08 10:55:31 790

原创 insightface论文小结

使用DCNNs嵌入来表示人脸是人脸识别的首选方法。DCNNs将人脸图像映射到具有较小类内距离和较大类间距离的特征空间中。训练用于人脸识别的DCNNs有两个主要的研究方向。训练一个多类别分类器，它可以在训练集中分离不同的身份，例如使用一个softmax分类器，还有直接学习嵌入特征，例如triplet loss。基于大规模训练数据集和复杂DCNN结构，基于softmax loss的方法和triplet loss的方法都可以获得良好的人脸识别性能。然而两者都有一定的缺点。对于softmax loss：（1）

2021-12-23 16:26:00 314

原创人脸识别数据集概况及资源合集

人脸数据集梳理介绍Image-restricted with no

2021-12-16 14:46:15 4918 7

原创人脸识别调研报告2021

行业概况人脸识别定义人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。主流的生物识别方式有：指纹识别、虹膜识别、语音识别、静脉识别和人脸识别。人脸识别主要包括：图像采集、人脸检测、预处理、人脸特征点提取和人脸匹配等流程。人脸识别的优势：具有非接触性、非侵扰性、硬件基础完善和采集快捷便利、可拓展性好。人脸识别市场规模全球人脸识别市场渗透率快速攀升，产业正进入增长快车道，2020年全球市场规模已突破38亿美元；中国市场复合年增长率超过全球平均水平，有望成为全球最大的人脸识别市场。人

2021-12-08 16:09:58 1496

原创 yolov5训练的小技巧

从数据集上每个类别的图片数：推荐每个类别的图片数>=1500每个类别的实例数：每个类的实例（标记对象）>=10000图片多样性：必须使用已部署的环境为代表。对于真实用例，我们推荐来自一天中不同时间、不同季节、不同天气、不同光照、不同角度、不同来源（在线抓取、本地收集、不同相机）等的图像。标签一致性：所有图像中所有类的所有实例都必须标记。部分标签将不起作用。标签准确性：标签必须紧密地包围每个对象。对象与其边界框之间不应存在空间。任何对象都不应缺少标签。背景图片：背景图像是没有对象的图

2021-11-22 16:50:00 7943 4

原创 python部署到生产环境

本教程假设您有一个要将应用程序部署到的服务器。它概述了如何创建分发文件并安装它，但不会详细说明要使用的服务器或软件.构建和安装当您想在别处部署应用程序时，您可以构建一个分发文件。Python 发行版的当前标准是wheel格式，扩展名为 .whl。确保首先安装了wheel库：pip install wheel使用 Python 运行 setup.py 为您提供了一个命令行工具来发出与构建相关的命令。 bdist_wheel 命令将构建一个轮子分发文件。python setup.py bdist_w

2021-09-30 18:11:05 654

原创在Python中部署pytorch（带有flask的REST API）

这是在生产中部署 PyTorch 模型的系列教程中的第一篇。以这种方式使用 Flask 是迄今为止开始为PyTorch模型提供服务的最简单方法，但它不适用于具有高性能要求的用例。API 定义我们将首先定义我们的 API 端点、请求和响应类型。我们的 API 端点将位于 /predict，它使用包含图像的文件参数接收 HTTP POST 请求。响应将是包含预测的 JSON 响应：{"class_id": "n02124075", "class_name": "Egyptian_cat"}依赖安装依

2021-09-23 11:20:22 550

原创 reid工程中的小trick

将ResNet的最后一个block的stride从2改为1，增大feature map针对业务场景使用合适的augmentationRandom erase可以增强泛化能力用GAN造图配合label smooth可以扩充数据增大batchsize可以提高TriHard损失的效率label noise和长尾效应是普遍存在的...

2021-09-06 16:47:25 115

原创模型量化知识

什么是模型量化在CV、DL的语境下：模型：特指卷积神经网络（用于提取图像/视频视觉特征）量化：将信号的连续取值近似为有限多个离散值的过程。模型量化有什么好处压缩参数提升速度降低内存占用模型量化对速度的影响许多量化算法都无法提升速度。理论峰值性能：单位时钟周期内能完成的计算个数 * 芯片频率什么样的量化方法可以带来潜在的、可落地的速度提升：该量化数的计算在系统上峰值性能更高引入的额外计算少目前已知提速概率较大的量化方法：二值化xnor + popcount理论峰值

2021-09-02 15:40:06 551

原创行人重识别

行人重识别系统包含的技术模型压缩

2021-08-23 10:52:13 106

原创常用的心理学原理

格式塔完型理论相近（Proximity）：距离相近的各部分趋于组成整体。相似（Similarity）：在某一方面相似的各部分趋于组成整体。封闭（Closure）：彼此相属、构成封闭实体的各部分趋于组成整体。连续（Continuity）：我们倾向于完整地连接一个图形，而不是观察残缺的线条或形状。简单（Simplicity）：具有对称、规则、平滑的简单图形特征的各部分趋于组成整体。https://www.uisdc.com/5-minutes-know-gestalt费茨定律费茨定律指的是：

2021-08-16 16:58:36 445

原创机器学习的模型评估

精确率和召回率的权衡精确率：指分类正确的正样本个数占分类器判定为正样本的样本个数的比例召回率：指分类正确的正样本个数占真正正样本个数的比例在排序问题中，通常没有一个固定阈值把得到的结果直接判定为正样本或负样本，而是采用TopN返回结果的Precision值和Recall值来衡量排序模型的性能，即认为模型返回的TopN的结果就是模型判定的正样本，然后计算前N个位置上的精确率PrecisionN和召回率RecallN。为了综合评估一个排序模型的好坏，不仅要看模型的precision和recall，最好绘

2021-07-20 17:07:56 337 2

原创 yolov5训练自定义数据

训练自定义数据新建dataset.yamlCOCO128是一个小型教程数据集，由COCOtrain2017中的前128张图像组成。这128张图片用于训练和验证，以验证我们的训练通道是否能够拟合。数据集配置文件如下所示：它定义了1）一个可选的下载命令/URL，用于自动下载。2）训练图像目录的路径(或带有训练图像列表的txt文件路径)3）用于验证的图像4）类的数量5）类名列表# download command/URL (optional)download: https://github.

2021-04-14 19:31:34 329

原创开发集和测试集

被选择作为开发集和测试集的数据，应当与你未来计划获取并对其进行良好处理的数据有着相同的分布，而不一定和训练集的数据分布一致。开发集和测试集的分布应当尽可能一致。为你的团队选择一个单值评估指标进行优化。当需要考虑多项目标时，不妨将它们整合到一个表达式里（比如对多个误差指标取平均），或者设定满意度指标和优化指标。机器学习是一个高度迭代的过程：在出现最终令人满意的方案之前，你可能要尝试很多想法。拥有开发集、测试集和单值评估指标可以帮助你快速评估一个算法，从而加速迭代进程。当你要探索一个全新的应用时，尽.

2021-01-26 11:01:03 560

原创机器学习的通用工作流程

1. 定义问题，收集数据集定义问题输入数据是什么，要预测什么，只有拥有可用的训练数据，才能学习预测某件事情。面对的是什么类型的问题？是二分类问题、多分类问题、回归问题还是多分类、多标签问题。确定问题类型有助于你选择模型架构、损失函数等。只有明确了输入、输出及所用的数据才能进入下一阶段。假设输出是可以根据输入进行预测的假设可用数据包含足够多的信息，足以学习输入和输出之间的关系2. 选择衡量成功的指标3. 确定评估方法4. 准备数据5. 开发比基准更好的模型这一阶段的目标是获得统计

2020-12-06 23:39:05 627

原创 nvidia-smi

卸载掉原有驱动sudo apt-get remove --purge nvidia-*如果出现kernel错误，查错的时候可以考虑gcc版本的问题

2020-09-14 10:39:53 204

原创构造函数

构造函数：类中的特殊函数用于描述初始化函数构造函数的作用：在对象被创建时使用特定的值构造对象，将对象初始化为一个特定的初始状态。构造函数的形式：函数名与类名相同不能定义返回值类型，也不能有return语句可以有形参，也可以没有形参可以是内联函数可以重载可以带默认参数值...

2020-08-31 18:00:45 149

原创 GB28181设备对接平台

https://www.liangzl.com/get-article-detail-30876.html (java)https://www.cnblogs.com/wanggang123/p/7507897.html（c）https://www.jianshu.com/p/4438711f6f3eGB28181:基于JAVA的SIP协议实现https://www.jianshu.com/p/4b0963989bc3GB28181：基于JAVA的注册实现...

2020-08-19 17:16:30 805 1

原创 c++

::function(); 表明使用全局的方法::a; 使用全局的变量aa; 局部变量a头文件In c++，使用分离的 .h 和 .cpp 来定义一个类把类的声明和类里所有函数的原型放到 .h 文件中把函数的body放到 .cpp 中如果头文件声明一个函数，就必须在所有需要用到它的地方使用include类也一样需要include...

2020-07-30 17:58:18 115

原创 YOLOv4的其他讨论

创建NN时的其他讨论用于分类对象的最佳网络并不一定总是用作检测对象网络的骨干的最佳网络使用经过训练的weights和使用具有更高分类准确度的features进行训练，可能会对detector的准确性产生负面影响（某些网络中）并非各种研究中提到的所有功能都可以提高网络的准确性...

2020-07-30 16:13:34 142

原创空间域图像增强

空间域增强是指增强构成图像的像素。空间域方法是直接对这些像素操作的过程。

2020-07-24 15:36:13 945

原创 R-CNN系列小结

R-CNNR-CNN首先对图像采取若干提议区域并标注它们的类别和边界框。然后用卷积神经网络对每个提议区域做前向计算抽取特征。之后用每个提议区域的特征预测类别和边界框。具体来说，由以下4步构成。对输入图像使用选择性搜索来选取多个高质量的提议区域。这些提议区域通常是在多个尺度下选取的，并具有不同的形状和大小。每个提议区域将被标注类别和真实边界框。选取一个预训练的卷积神经网络，并将其在输出层之前截断。将每个提议区域变形为网络需要的输入尺寸，并通过前向计算输出抽取的提议区域特征。将每个提议区域的特征连同

2020-07-17 18:56:19 275

原创 Caffe中CNN的基本结构配置

CNN是层级网络，通常包括数据输入层（Input Layer）、卷积层（Convolutional Layer）、池化层（Pooling Layer）、全连接层（Full Connection Layer）等。数据输入层Caffe的配置文件layer { name: "data" type: "ImageData" top: "data" top: "clc-label" image_data_param { source: "all_train.txt" batch_size: 9

2020-07-09 09:49:01 248

原创提高yolov4目标检测的技巧

本文总结了在训练前后如何通过修改配置或数据集来用yolov4进行更好的目标检测

2020-06-29 17:25:23 3702 5

原创 yolo.cfg文件解析

[net] ★ [xxx]网络层的名字，其后的内容为该层的参数配置，[net]为特殊的层，配置整个网络# Testing ★ #号开头的行为注释行，在解析cfg的文件时会忽略该行# batch=1# subdivisions=1# Trainingbatch=64 ★ 这儿batch与机器学习中的batch有少许差别，仅表示网络积累多少个样本后进行一次BPsubdivisi

2020-06-22 18:23:45 288

原创基本的图像增强

import numpy as npimport tensorflow as tfimport skimage.transform as tranimport osimport cv2img_path = "./croppedImg.jpg"save_path = './imgProcess/'# 随机裁剪图片def random_crop_image(image_file, num): with tf.Graph().as_default(): tf.comp

2020-06-19 10:59:26 235

原创 yolo

yolo9000提出一种联合训练机制，将检测数据集和分类数据集联合训练。使用含有标签的检测数据集去学习检测相关的信息，比如bbox的坐标预测，是否包含目标，以及包含目标的概率。使用仅有类别标签的分类数据集图片去拓展可以检测的种类。在训练的时候，把检测和分类数据集混合起来，当网络遇到一张属于检测数据集的图片就基于YOLOv2的全部损失函数（包括分类部分和检测部分）做反向传播。当遇到一张属于分类数据集的图片就仅基于分类部分的损失函数做反向传播。采用联合训练后，yolo9000从coco检测数据集中学习如何

2020-06-17 10:57:28 203

原创 ffmpeg轻松转码rtsp到浏览器中播放

最近需要把hikvision的rtsp流播放在浏览器中，由于rtmp和flv都需要flash支持，故定了rtsp转hls的解决方案。环境为ubuntu18，linux下手动编译安装用户软件，源码放在/usr/local/src中，安装路径在/usr/local下。权限问题可使用sudo命令。准备安装编译需要用到的库和工具apt-get install build-essential libtool gcc automake autoconf make安装pcre，支持rewrite功能源码地址

2020-06-05 18:25:15 1295

原创一篇文章搞懂python定时任务-APScheduler

基本概念APScheduler有四种组件：triggers (触发器)job stores (作业储存器)executors (执行器)schedulers (调度器)触发器包含调度逻辑。每个作业都有自己的触发器，该触发器确定下一步应在何时运行该作业。除了其初始配置之外，触发器完全是无状态的。作业储存器存放调度的作业。默认的作业存储器只是将作业保存的内存中，而其他作业则将他们存储在各种数据库中。作业的数据在保存到持久性作业存储中时会序列化，在从作业中加载回去时会反序列化。作业存储器（默认存

2020-05-25 20:32:28 817

yolov4-custom.cfg

yolov3-tiny_3l.cfg

yolov3_5l.cfg

libcublas.so.10.0

空空如也