计算机视觉
文章平均质量分 81
cv
sdbhewfoqi
这个作者很懒,什么都没留下…
展开
-
【计算机视觉】语义分割输入图像尺寸
比如1024*2048的效果会比600*800的效果好吗?图像输入尺寸对语义分割模型的效果有显著影响。原创 2024-09-03 20:56:26 · 1134 阅读 · 0 评论 -
【计算机视觉】Yolov7目标函数
边界框损失: 关注的是预测框与真实框在位置和尺度上的差异,确保预测的边界框能够精确地包围目标。目标检测损失: 关注的是模型对目标存在与否的置信度判断,确保模型能够正确识别出目标的存在。分类损失: 关注的是预测的目标类别与真实类别的匹配程度,确保模型能够准确地分类目标。在YOLOv7的训练过程中,这些损失共同作用,指导模型优化其参数,以提高目标检测的整体性能。模型的总损失通常是上述各项损失的加权和,通过调节各项损失的权重,可以平衡不同损失对模型训练的影响。原创 2024-08-22 14:39:21 · 581 阅读 · 0 评论 -
【计算机视觉】Yolov7目标函数
边界框损失: 关注的是预测框与真实框在位置和尺度上的差异,确保预测的边界框能够精确地包围目标。目标检测损失: 关注的是模型对目标存在与否的置信度判断,确保模型能够正确识别出目标的存在。分类损失: 关注的是预测的目标类别与真实类别的匹配程度,确保模型能够准确地分类目标。在YOLOv7的训练过程中,这些损失共同作用,指导模型优化其参数,以提高目标检测的整体性能。模型的总损失通常是上述各项损失的加权和,通过调节各项损失的权重,可以平衡不同损失对模型训练的影响。原创 2024-08-08 17:38:08 · 513 阅读 · 0 评论 -
【CV】stable diffusion初步理解
在Stable Diffusion中,“latent”就是指图像的简化表示。模型通过在这个简化的空间中进行操作,逐步还原出高质量的图像。这个过程不仅提高了效率,还能生成更好的图像。原创 2024-06-11 16:52:02 · 876 阅读 · 0 评论 -
【计算机视觉】对比学习采样器sampler
L=500,n_label=10,batch=500//10=50,需要采50个batch,每个batch里10个商品*n_instance。总共有31w的图片,要想31w/4800=64.5=64,想要全部图片看一次需要设置这里的epoch=64次,想要看多次则64*多次。每个epoch会过完所有的label,也就是会过完所有的商品,但只会过40*10*12张图片=4800张。在该文档里,category表示类别,label表示商品,instance表示商品不同角度的图片。L个商品,C个类目,原创 2023-07-05 12:07:40 · 803 阅读 · 0 评论 -
【计算机视觉】CLIP
在 CLIP 中相当于,同一张图片,图像数据增强后,第一个图片 经过 VIT 进行特征提取,返回特征 query 160,128;输入size,(4,3,256,256) ,为了序列化输入进 transformer 中,利用 patch 进行分块。4个图片,分别是猫、狗、猪、鸭。不能考虑自己,去掉对角线,得到520*519。to_cls_tokens(out) 求全局特征,cls_to_tokens=4,1,512。经过transformer 特征提取后,得到 out # 4,64,512(64个位置)原创 2023-04-05 00:36:50 · 1187 阅读 · 1 评论 -
【计算机视觉】 ffprobe not found
这次记录里说明了如何计算视频播放时长【计算机视觉】ffmpeg获取视频详细信息含视频时长在linux环境下,出现报错 ffprobe not found, 尽管已经安装了pip ffmpeg,但是显然环境并没有知道已经安装了。解决办法参考https://stackoverflow.com/questions/30770155/ffprobe-or-avprobe-not-found-please-install-one执行 sudo apt-get install -y ffmpeg然后原创 2020-11-25 17:28:08 · 2431 阅读 · 0 评论 -
【计算机视觉】Python视频处理
目录1、计算视频总帧数2、视频中的 FPS,即:每秒传输帧数(Frames Per Second))3、视频按帧保存成图片4、按帧合成视频5、视频按照 指定时间/ 指定帧率 保存成图片1、计算视频总帧数ffmpeg$ffmpeg -i test.avi -vcodec copy -f rawvideo -y /dev/null 2>&1 | tr ^M '\n' | awk '/^frame=/ {print $2}'|tail -n 1opencv.原创 2020-10-19 10:52:14 · 1047 阅读 · 0 评论 -
【计算机视觉】图片裁减黑边或者白边
# 图像腐蚀 # iteration的值越高,模糊程度(腐蚀程度)就越高 呈正相关关系# 使用场景:图像腐蚀 加上高斯模糊 就可以使得图像的色彩更加突出可以是色彩追踪更加精准,少了很多的颜色干扰closed_1 = cv2.erode(gray, None, iterations=4)机器学习进阶-图像形态学操作-膨胀操作 1.cv2.dilate(进行膨胀操作)图像的腐蚀与膨胀cv2.dilate(src, kernel, iteration)参数说明: src表示输入...原创 2020-09-09 19:22:04 · 2476 阅读 · 1 评论 -
【计算机视觉】ffmpeg获取视频详细信息含视频时长
https://wqian.net/blog/2018/1128-python-ffmpeg-mp3-length-index.html原创 2020-08-11 14:25:28 · 2529 阅读 · 1 评论 -
【Python】基于base64对图片进行编码
用python做http接口自动化测试的时候,接口的很多参数是经过各种编码加密处理后在传到后台的,这里列举出python实现应用 base64、hmac、hashlib包实现:md5编码 sha1编码 sha3_224编码 sha3_256编码 sha3_384编码 sha3_512编码 、 sha224编码 、 sha384编码 、 sha512编码 、shake_128编码 、 shake_256 编码 、urlsafe_b64encode编码等各种编码加密签名的方法。我只用到了...原创 2020-07-24 11:39:02 · 1678 阅读 · 0 评论 -
【计算机视觉】批量压缩图片
问题描述参考:使用Python轻松批量压缩图片python 实现图像的无损压缩python高精度等比压缩图片,压缩的图片名称与原图片相同原创 2020-07-24 11:41:58 · 309 阅读 · 0 评论 -
【计算机视觉】使用ffmpeg抽帧和压缩图片
目录1、首先conda安装ffmpeg2、使用ffmpeg从视频中截取图像帧ffmpeg每隔5秒切分视频为图片使用ffmpeg提取视频中的图像(根据帧间隔、时间间隔)使用ffmpeg从视频中截取图像帧(最简单实用的视频抽帧,一句命令)3、ffmpeg图片压缩3.1、使用ffmpeg进行webp图片压缩,ffmpeg的帮助信息查看方法4、补充4.1、使用PyAV保存关键帧4.2、python实现视频关键帧提取(基于帧间差分)1、首先conda安装ffmpeg..原创 2020-07-24 11:35:17 · 14256 阅读 · 3 评论 -
【计算机视觉】CTPN算法
CTPN的网络结构(图1):Fig. 1: (a) Architecture of the Connectionist Text Proposal Network (CTPN). Wedensely slide a 3×3 spatial window through the last convolutional maps (conv5)of the VGG16 model [27]....原创 2019-04-05 16:49:47 · 3253 阅读 · 4 评论 -
【深度学习】SENet学习总结
任意方向文本Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation这篇论文中,接触到了这个block从表中看出,SE-VGG16的对于模型性能的提升。言归正传原创 2019-06-10 16:20:56 · 3179 阅读 · 0 评论 -
【计算机视觉】文本检测综述(含2019年)
1 文本检测主流思路到2019年中旬,目前的文本检测方案汇总如下:(看不清的可以点大图)2 文本检测解决方案含常用数据集上的检测结果3 文本检测常用数据集介绍Benchmark Datasets ICDAR 2013(Focused Scene Text)(水平文本)ICDAR2015(Incidental Scene Text)(倾斜文本)I...原创 2019-07-28 00:44:27 · 1881 阅读 · 1 评论 -
【计算机视觉】TIoU文本检测评价指标
Recall用于衡量真值框G被召回的比例,即真值框G中有多少是被正确预测到的;Precision用于衡量检测框D的精确程度,即预测到的检测框D中,都多少是真的。1 传统评价指标计算方法设定的iou阈值为0.5,即与的iou超过0.5,则为1,反之为0。recall:对于每一个真值框计算iou>0.5的部分。 precision:对于每一个预测框计算iou>0.5的部分...原创 2019-07-28 16:54:54 · 8225 阅读 · 1 评论 -
【目标检测算法】SSD学习笔记
由于在经过多层的前向卷积运算之后,输出的特征图将变得比较小,则特征图上的一个像素点便对应着原图中较大的区域,这样的结构就很难检测较小物体。因此SSD就将中间过程输出的特征图也用来做回归和分类,可以看成一个多尺度检测的过程,保证了空间尺度上的完备性,可以有效检测出较小的物体。SSD主要是加入卷积特征层,得到不同尺度的特征层,从而实现多尺度目标检测。对于每个添加的特征层,使用一组卷积滤波器,可...原创 2019-01-27 00:19:52 · 315 阅读 · 0 评论 -
【目标检测算法】RetinaNet学习笔记/实现Focal Loss
主要是由focus loss+FPN结构,是one stage的检测算法。object detection的算法主要可以分为两大类:two-stage detector和one-stage detector。前者是指类似Faster RCNN,RFCN这样需要region proposal的检测算法,这类算法可以达到很高的准确率,但是速度较慢。虽然可以通过减少proposal的数量或降低输入图...原创 2018-07-22 17:41:38 · 8990 阅读 · 2 评论 -
【计算机视觉】SSD和YOLO的区别
从0到1 实现YOLO v3 (Part one)yolo-v3和SSD的一些对比原创 2019-03-16 17:23:42 · 11594 阅读 · 0 评论 -
【深度学习】网络结构(VGG-16和Inception)
详解深度学习之经典网络架构(四):VGG-Net详解深度学习之经典网络架构(十):九大框架汇总(墙裂!!)一文读懂物体分类AI算法:LeNet-5 AlexNet VGG Inception ResNet MobileNetGoogle InceptionGoogle Inception是一个大家族,包括inceptionV1 inceptionV2 inceptionV3 inc...原创 2019-03-16 11:49:15 · 1970 阅读 · 0 评论 -
【深度学习】多通道图像卷积基础知识介绍
转:https://blog.csdn.net/williamyi96/article/details/776480471.对于单通道图像+单卷积核做卷积Conv layers包含了conv,pooling,relu三种层。以python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构为例,如图2,Conv layers部分共有13个conv层,13个relu层,...转载 2018-10-09 17:16:06 · 5395 阅读 · 2 评论 -
【目标检测算法】Faster RCNN学习笔记(实验过程中的补充)
faster RCNN-keras代码介绍:https://zhuanlan.zhihu.com/p/28585873参考:https://blog.csdn.net/JNingWei/article/details/78847696补充1:在faster rcnn中,Note:只有在train时,cls+reg才能得到强监督信息(来源于ground truth)。即groun...原创 2018-09-30 20:39:38 · 1084 阅读 · 1 评论 -
Paper基础知识准备(我也很无奈因为要改网络结构)
参考数据集排名:KITTIVOC2012OCR信息汇总博主都是将ocr的论文:原创 2018-10-18 19:47:11 · 600 阅读 · 0 评论 -
【目标检测算法】R-FCN学习笔记
R-FCN的idea出发点(关键思想)https://www.jianshu.com/p/409fd61db9db分类需要特征具有平移不变性,检测则要求对目标的平移做出准确响应。现在的大部分CNN在分类上可以做的很好,但用在检测上效果不佳。SPP,Faster R-CNN类的方法在ROI pooling前都是卷积,是具备平移不变性的,但一旦插入ROI pooling之后,后面的网络结构就不再具...原创 2018-07-22 22:31:26 · 475 阅读 · 1 评论 -
【目标检测算法】Faster RCNN学习笔记(ROI pooling)
https://zhuanlan.zhihu.com/p/32404424extractor:VGG-16anchor:Anchor是大小和尺寸固定的候选框。论文中用到的anchor有三种尺寸和三种比例,如下图所示,三种尺寸分别是小(蓝128)中(红256)大(绿512),三个比例分别是1:1,1:2,2:1。3×3的组合总共有9种anchor。 Anchor ...原创 2018-07-28 11:39:33 · 617 阅读 · 0 评论 -
【目标检测算法】Faster RCNN学习笔记
每次请回顾:Faster RCNN 学习笔记faster rcnn源码解析Faster RCNN:RPN,anchor,sliding windowshttps://zhuanlan.zhihu.com/p/324044241、这里以faster rcnn举例。在faster rcnn里面,anchor(或者说RPN网络)的作用是代替以往rcnn使用的selective s...原创 2018-07-21 21:27:40 · 19288 阅读 · 14 评论 -
【目标检测算法】Fast RCNN学习笔记
Test过程1. 用selective search方法提取图片的2000个proposal,并保存到文件2. 将图片输入到已经训好的CNN 网络,在ROI pooling Layer的地方,对每一个proposal,提取到其对应的ROI3. 对每一个ROI, 将其划分成固定大小的网格,并且在每一个小网格中,对该网格中所有的值取最大,得到固定大小的feture map,并将其输入到后续...原创 2018-07-21 17:06:00 · 190 阅读 · 0 评论 -
【目标检测算法】R-CNN & FAST-RCNN & FASTER-RCNN
R-CNN --> FAST-RCNN --> FASTER-RCNN转:faster-rcnn原理及相应概念解释RCNN学习笔记(2):Fast R-CNNR-CNN:(1)输入测试图像;(2)利用selective search 算法在图像中从上到下提取2000个左右的Region Proposal;(3)将每个Region Proposal缩放(war...转载 2018-07-21 17:06:28 · 236 阅读 · 0 评论 -
【目标检测算法】SPP-Net学习笔记
在现有的CNN中,对于结构已经确定的网络,需要输入一张固定大小的图片,比如224*224,32*32,96*96等。这样对于我们希望检测各种大小的图片的时候,需要经过裁剪,或者缩放等一系列操作,这样往往会降低识别检测的精度,于是paper提出了“空间金字塔池化”方法,这个算法的牛逼之处,在于使得我们构建的网络,可以输入任意大小的图片,不需要经过裁剪缩放等操作,只要你喜欢,任意大小的图片都可以。...原创 2018-07-20 18:53:22 · 1216 阅读 · 0 评论 -
【目标检测算法】Faster RCNN代码记录(keras版)
参数:num_rois: roi pooling层解析# number of ROIs at once# 训练classifer的回归框# 经过rpn后输出的不止一个矩形框,所以这里我们是对多个ROI进行Pooling"""输出是batch个vector,其中batch的值等于RoI的个数,vector的大小为channel * w * h;RoI Pooling的过程就是将一...原创 2018-10-20 15:23:18 · 1903 阅读 · 0 评论 -
【目标检测算法】Faster RCNN代码修改记录
关于TimeDistributed——keras TimeDistributed 包装器x = TimeDistributed(Convolution2D(nb_filter3, (1, 1), trainable=trainable, kernel_initializer='normal'), name=conv_name_base + '2c')(...原创 2018-10-23 14:53:16 · 904 阅读 · 0 评论 -
【计算机视觉】卷积自编码器:用卷积层构建auto-encoder
当输入是图像时,使用卷积神经网络是更好的。卷积自编码器的编码器部分由卷积层和MaxPooling层构成,MaxPooling负责空域下采样。而解码器由卷积层和上采样层构成。50个epoch后,损失val_loss: 0.1018。input_img = Input(shape=(28, 28, 1))x = Convolution2D(16, (3, 3), activation='re...转载 2018-10-24 21:18:57 · 6483 阅读 · 2 评论 -
【计算机视觉】CRNN
上班第二天巨困。。。在我连着每天三点睡觉,8点起床之后,我感觉我老了。。。CTC总结CTC是一种Loss计算方法,用CTC代替Softmax Loss,训练样本无需对齐。CTC特点:同时引入blank字符,解决有些位置没有字符的问题 通过递推,快速计算梯度注意:在进入网络之前,所有的图像需要缩放到相同的高度。在英文单词的时候,要使用到字典。从编辑距离、BK树到文本纠错...原创 2019-03-21 09:41:12 · 2988 阅读 · 2 评论 -
【计算机视觉】场景文本检测与识别(资料)
文字检测与识别资料整理(比心心心原创 2019-03-19 14:59:46 · 1800 阅读 · 0 评论 -
【计算机视觉】项目总结
Faster rcnn损失函数部分:为什么采用L1而不用L2?smoothed L1 Loss is a robust L1 loss that is less sensitive to outliers than the L2 loss used in R-CNN and SPPnet.上述是Fast RCNN解释为什么采用smoothed L1, 因为它对噪音点不那么敏感,即对离目标太...原创 2019-02-21 11:41:57 · 1089 阅读 · 0 评论 -
【深度学习】DensNet总结
学习新知识之前先回顾一下ResNet学习笔记。DenseNet核心思想在于建立了不同层之间的连接关系,充分利用了feature,进一步减轻了梯度消失问题,加深网络不是问题,而且训练效果非常好。另外,利用bottleneck layer,Translation layer以及较小的growth rate使得网络变窄,参数减少,有效抑制了过拟合,同时计算量也减少了。DenseNet优点很多,而且在...原创 2019-03-02 15:39:42 · 2015 阅读 · 0 评论 -
【深度学习】CNN计算
1、CNN特征图计算卷积:注意是前半部分是下取整!!!池化:没有pad2、CNN参数数量3、FC Layer参数数量emmmmmm4、全连接和卷积的关系全连接层也可以被视为是一种极端情况的卷积层,其卷积核尺寸就是输入矩阵尺寸,因此输出矩阵的高度和宽度尺寸都是1。一个卷积核产生一个feature map!!!(要命了-0-)参...原创 2019-03-01 17:36:31 · 1905 阅读 · 0 评论 -
【计算机视觉】感受野
感受野定义:CNN每一层输出的特征图上的像素点在原始图像上映射的区域大小。(注:这里是输入图,不是原始图。好多博客写的都是原图上的区域,经过一番的资料查找,发现并不是原图。)于是,特征图的大小逐渐变小,一个特征表示的信息量越来越大。隐藏层边长(输出的边长) = (Input - K + 2P)/S + 1(其中 Input是输入特征的大小,K是卷积核大小,P是填充大小,...原创 2019-03-01 17:19:39 · 729 阅读 · 0 评论 -
【目标检测算法】YOLOv3学习笔记
Yolo系列的train阶段打标签原则都是:这几个bounding box中只有和ground truth的IOU最大的bounding box才是用来预测该object的。。YOLO算法的基本思想是:首先通过特征提取网络对输入图像提取特征,得到一定size的feature map,比如13*13,然后将输入图像分成13*13个grid cell,接着如果ground truth中某个obj...原创 2019-01-27 00:19:27 · 2608 阅读 · 2 评论