视觉AI算法
文章平均质量分 54
WX Chen
实用技术总结,前沿科技分享,欢迎交流技术和业务
展开
-
基于CLEval的OCR精度评价指标
对“RIVERSIDE”的检测展示了细粒度的问题,对“WALK”的识别体现了正确性问题。TotalNum代表GT或检测到的字符的总数,CorrectNum代表正确的字符的总数。正确性表示的是文本与检测的匹配程度,在检测结果中,理想情况是每个字符被且仅被检测到一次。1.实例匹配过程:针对细粒度问题,将所有可能的gt和det做匹配,这里的匹配要求gt和det起码包含一个以上的共享字符。该论文提出了一种针对字符级别信息的评估方式,这种方式是对独立的文本检测、文本识别和端到端的文本发掘的细化评估。原创 2023-07-06 11:11:24 · 162 阅读 · 0 评论 -
2020-AAAI-华科白翔-DBNet文本检测
在基于分割的文本检测网络中,最终的二值化map都是使用的固定阈值来获取,并且阈值不同对性能影响较大。本文中,对每一个像素点进行自适应二值化,二值化阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。第一模块:使用CNN网络,对输入图像提取特征,得到特征图,本实验使用的骨干网络是轻量化网络MobileNetv3,同时使用了FPN结构,获取多尺度的特征,在本实验中,我们提取4个不同尺度下的特征图做拼接。DBNet属于基于分割的方法。做文字检测(基于分割的方法)原创 2023-07-02 21:24:00 · 135 阅读 · 0 评论 -
模型压缩简介
模型部署是生产应用的最后一环,它将深度学习模型推理过程封装成服务,内部实现模型加载、模型版本管理、批处理以及服务接口封装等功能,对外提供RPC/HTTP接口。模型优化不彻底:TensorRT、TF-TRT等工具主要针对主干网络优化,但忽略了预处理部分,因此整个模型优化并不充分或者无法优化。另一种模型压缩还可以直接改变模型架构,虽然做不到模仿人脑进行稀疏连接,依然有很好的压缩效果,这种方法称为模型蒸馏。模型压缩领域对大脑的稀疏激活的应用是模型剪枝,相当于把模型做窄,永久失活一部分神经元,而不改变模型架构。原创 2023-04-06 09:14:03 · 175 阅读 · 0 评论 -
以图搜图综述
但特征的学习方式,尤其是引入度量学习的思路之后,即便是同一个网络的同一层特征,不同的训练方式对最后的精度也会有很大的影响。online部分,其中特征提取(query)和offline的特征提取(database)需要保持高度的一致性。2. 如何解决全量的特征迭代的问题,也就是说query和database的特征需要同步;以图搜图技术需要根据不同的使用场景来选择合适的技术方案,尤其是特征的选择。3. 特征增强,在检索结构确定的情况下获得更好的检索效果;1. 如何解决检索库动态增加的问题;4. 高并发低延迟;原创 2023-03-01 17:05:00 · 219 阅读 · 0 评论 -
特征匹配算法
它可以使复杂度为O(MN)的求和,求方差等运算降低到O(1)或近似于O(1)的复杂度,也就是说与邻域尺寸无关了,有点类似积分图吧,但是貌似比积分图更快(与它的实现方式有关)。对于二维的矩阵来讲,每一级Haar小波变换,需要先后进行水平方向和竖直方向上的两次一维小波变换,行和列的先后次序对结果不影响。盒子滤波是一种非常有用的线性滤波,也叫方框滤波,最简单的均值滤波就是盒子滤波归一化的情况。3.通过匹配特征点描述子,找到两张图中匹配的特征点对(这里可能存在错误匹配)2.提取每个特征点对应的描述子。原创 2023-02-13 16:22:18 · 225 阅读 · 0 评论 -
SURF特征匹配算法
在特征点周围取一个正方形框,框的边长为20s(s是所检测到该特征点所在的尺度)。然后把该框分为16个子区域,每个子区域统计25个像素的水平方向和垂直方向的haar小波特征,这里的水平和垂直方向都是相对主方向而言的。该haar小波特征为水平方向值之和,水平方向绝对值之和,垂直方向之和,垂直方向绝对值之和。用SIFT算法来实现图像拼接是很常用的方法,但是因为SIFT计算量很大,所以在速度要求很高的场合下不再适用。Surf算法的基本路程也可以分为四大部分:尺度空间建立、特征点定位、特征点方向确定,特征点描述。原创 2023-02-13 16:20:18 · 210 阅读 · 0 评论 -
条码识别算法2
第二,为 了条码的可识读性,条码在制作时条和空之间有着较大的反射率差,从而条码区域内的灰度对比度较大,而且边缘信息丰富。第一,条码区域内的条空是平行排列的,方向趋于一致;基于方向一致性的条码定位算法。原创 2023-01-20 17:48:40 · 557 阅读 · 0 评论 -
条码识别算法
将最细的线宽设为 «1»,那么2倍的线宽就是«11»,3倍的线宽就是 «111»,以此类推。空白宽度按照同样原则,分别代表 «0», «00» 或 «000»。Code-128码是11位条码。把序列拆分成11位数据块,生成字符串并显示。通过纵横配置像素,能够存储更大的信息量,不仅能表达数字,还能表达各类语言。对条码的条杠(=线)及空间的宽度(间隔)差异进行感测,以此来读取数据。包括3种条杠,用3条杠和3格空格表达1个字符。用5条杠和4格空格表达1个字符的条码规格。符号(-,.,空格,$,/,+,%)原创 2023-01-20 17:47:29 · 1650 阅读 · 0 评论 -
结构重参数化
结构重参数化:利用参数转换解耦训练和推理结构结构重参数化(structural re-parameterization)指的是首先构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构。训练时的结构较大,具备好的某种性质(更高的精度或其他有用的性质,如稀疏性),转换得到的推理时结构较小且保留这种性质(相同的精度或其他有用的性质)。“结构重参数化”这个词的本意就是:用一个结构的一组参数转换为另一组参数,并用转换得到的参数来参数化(paramet原创 2022-12-04 21:15:03 · 3019 阅读 · 0 评论 -
2021图像篡改阿里天池比赛baseline
2021-arXiv-中国人民大学-(MVSS-Net++)MVSS-Net_ Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection。为了兼顾模型在篡改图像检测上的灵敏度和在真实未篡改图像上的特异度,MVSS-Net 一方面利用语义无关的图像噪声分布特征和边界特征实现篡改区域的准确定位,另一方面引入图像级分类损失使得模型可以直接在真实图像上进行学习。MVSS-Net++ 没有开源 To Be Done。原创 2022-11-01 09:40:59 · 925 阅读 · 1 评论 -
图像篡改检测调研
2020-D-Unet: A Dual-encoder U-Net for Image Splicing Forgery Detection and Localization (无代码)利用Faster R-CNN和噪声的方法,能够定位篡改区域,但仅针对特定篡改方式和数据库。论文笔记(图像篡改检测_CVPRW2019)(二)论文笔记(图像篡改检测_CVPR2018)(一)论文笔记(图像篡改检测_CVPR2019)(三)论文笔记(图像篡改检测)(四)Tensorflow代码。Tensorflow代码。原创 2022-11-01 09:39:39 · 739 阅读 · 0 评论