- 博客(317)
- 资源 (92)
- 收藏
- 关注
原创 基于华为atlas环境下的OpenPose人体关键点检测的人员跨越、坐立检测
然后基于该算法将上面的数据集跑一遍,得到所有数据的人体关键点和类别。基于OpenPose模型将数据集跑一遍,得到关键点坐标数据集,数据集保存在txt里面,每一行格式为(图片名 类别 关键点xy坐标),如果身体遮挡没有关键点的使用-1代替。(2)本质来看,跨越、坐立还是一个时序问题,基于时序的思路解答这个问题效果应该是会高一个量级的。关键点模型也是直接使用的开源的模型,没有在自己私有数据上微调,等等问题都会对最终的结果有影响。收集数据集,数据集中包含3种类型的数据,分别是跨越、坐立、其他(站立、睡着等等)。
2024-10-29 15:53:43 407
原创 基于atlas环境下YOLOV7的睡岗识别
主要基于华为的官方例子,里面修改了原始代码中某些库不支持的问题、解决了模型转化过程中的一些问题,发现了ACL不支持多线程的问题。本来自己是想做一个grpc的架构的,可是实际做的过程中发现华为的AclLiteModel实现的很差,对于进程、线程这些非常不友好,必须得是一个进程,同样的上下文才可以得到正确的推理结果。这里对比的训练的yolov7、yolov7-tiny两个模型,从精度上的明显差距,最终选择了yolov7模型作为最终模型。B站找一段睡觉的视频下载下来,这里实用you-get工具,
2024-09-20 16:00:00 572
原创 基于华为atlas的皮带跑偏、空载、堆煤、启停探索
写这篇的时候,想起当年第一次接触atlas还是在京东的一次aicon的会议上,其实那时觉得这东西挺新的,还有自己的IDE,其实自己也没用过。整体感觉模型这块不算复杂,唯一的麻烦的地方就是皮带、煤、煤块这几个的分割是属于多标签分割问题,就是说一个像素可以属于其中的一个也可以是属于其中的几个。训练过程采用累进训练的方式,我是一个一个目标递进训练的,这样可以获取更好的精度,具体的先训练出背景、皮带、左右托锟的模型,再在此基础上迭代煤的模型,最后迭代煤块的模型。是故无贵无贱,无长无少,道之所存,师之所存也。
2024-08-14 17:49:33 849
原创 基于华为atlas下的yolov5+BoT-SORT/ByteTrack煤矿箕斗状态识别大探索
这里说明以下,为什么不整体都选择yolov8呢,v8无疑是比v5优秀的,但是atlas这块经过不断尝试没有过去,所以只能选择v5。那为什么跟踪模型选择yolov8呢,其实我这里要做的是实时视频的处理,我也不想使用deepsort那种带识别模型的笨重型跟踪框架,看了yolov8的代码,觉得相当可以,就选择了yolov8中的跟踪。原本我以为自己的水平是扣不出这块跟踪代码的,毕竟是网上大波大佬修改过的代码。连续加班了2个晚上后,终于扣出来了,过程是曲折的,结果是美好的。模型转化,pt模型转化为onnx,
2024-08-13 16:27:08 585
原创 unet改进笔记
改进2:基于图片拼接的数据增强,需要修改图片和标签,在utils/data_loading.py中__getitem__函数增加。改进3:训练图片分布的随机扰动,在utils/data_loading.py中__getitem__函数增加。调用方式,在utils/data_loading.py中__getitem__函数增加。改进5:MobileV3Unet,新增mobilenet_unet.py。改进6:VGG16UNet,新增vgg_unet.py。改进7:HNet,新增HNet.py。
2024-04-16 18:19:18 939 2
原创 车道线检测之LaneNet
聚类分支负责将同一车道线的像素汇聚,不同车道线的像素拉开,输出聚类图。得到分割分支和聚类分支的结果后,需要进行后处理操作,对分割结果进行几何形态学处理从而去除孔洞,对去除孔洞的图像进行连通域处理,得到不同的连通域,对不同连通域图像基于聚类分支结果进行赋值,然后基于dbsan聚类,得到最终的实例分割结果。基于实例分割图,通过预先训练好的H-Net转化为鸟撖图,再基于曲线拟合得到车道线的曲线方程,从而得到像素点,将鸟撖图的像素点通过H-Net的逆变换矩阵还原到原图上,最终得到最终的车道线像素点。
2024-03-19 16:39:52 1233
原创 基于华为atlas的unet分割模型探索
使用工具Netron查看模型结构,确定模型输入节点名称为input.1,输出节点名称为/outc/conv/Conv。华为atlas的参考案例细节不到位,步骤缺失较多,摸索困难,代码写法较差,信创化道路任重而道远。模型输入为572*572*3,输出为572*572*2。分割目标分别为,0:背景,1:汽车。Unet模型使用官方基于kaggle。
2024-03-05 16:58:17 761 2
原创 基于华为atlas的分类模型实战
修改mobilenetv3.py中网络结构,模型选用MobileNetV3_Small模型,网络输出节点增加softmax层,将原始的return self.linear4(out)修改为return F.softmax(self.linear4(out), dim=-1)分类模型选用基于imagenet训练的MobileNetV3模型,分类类别为1000类。模型的输出node增加softmax成功。模型的输入node名称为input.1。实现转化onnx代码,
2024-02-27 16:29:02 1028 4
原创 基于华为atlas的烟火检测实战
实现信创化的docker file用于生成docker image,初始系统选择openeuler-20.09系统,docker file文件内容如下,将yolov5的best.onnx模型拷贝到当前目录,进行onnx转化为om,输出yolov5_add_bs1_fp16.om。基于flask实现烟火检测算法的http服务,然后实现视频解码-AI识别-结果绘制于视频上进行视频编码的业务代码。最终效果如下,上边为业务代码、左下角为流媒体引擎代码、右下角为AI服务代码、中间为AI实时视频识别效果。
2023-12-20 11:17:33 1174
原创 视频分类(Classification)和摘要(Captioning)总结
例如,在视频分析中,3D CNN可以检测动作、行为和事件,为视频分类、视频理解和动作识别等任务提供强大的能力。例如,在动作识别任务中,光流信息可以帮助区分不同的动作类别,而RGB信息可以提供更多的上下文信息。然而,与2D CNN相比,3D CNN具有更高的计算复杂性和更大的模型参数量,因此可能需要更多的计算资源和数据来训练。基本思路使用2dcnn或者3dcnn提取rgb视频或者光流视频每一帧的特征,将得到的每一帧的特征输入LSTM或者Transformer这样的语言模型进行学习,从而输出任意形态的句子。
2023-07-14 09:05:55 3852
原创 非局部attention之Non-local
Non-local和全连接层fc也是有区别的,第一,fc依靠学习的权重计算两个位置的关系,non-local计算两个位置的关系却不依赖输入的数据本身。其中,i表示输出位置的索引,j表示输入位置的索引,x表示输入特征,y表示和x同样大小的输出特征,f函数表示计算位置i和位置j之间的联系,计算结果使用一个常数表示。G函数表示计算输入特征在位置j处的特征表示。传统的卷积需要依靠不断一层一层堆叠来获得足够大的感受野,这样操作存在几个问题,第一,计算不高效,第二,优化训练过程麻烦,第三,使得模型有多次反射依赖。
2023-06-30 16:18:06 698
原创 期望最大化注意力网络 EMANet
论文提出的期望最大化注意力机制Expectation- Maximization Attention (EMA),摒弃了在全图上计算注意力图的流程,转而通过期望最大化(EM)算法迭代出一组紧凑的基,在这组基上运行注意力机制,从而大大降低了复杂度。X表示观测数据,Z表示隐变量空间,每一个数据x都有相应的隐变量与其对应,{X,Z}称为完整的数据,其极大似然估计就是lnp(X,Z|q),q表示模型的参数。通过注意力可视化图,i,j,k,l表示四个随机选择的基的下标,右边四列绘出的是它们各自对应的注意力图。
2023-06-28 20:48:46 4797
原创 图像分割之SAM(Segment Anything Model)
该模型有别于传统的分割模型。传统分割模型只能输入原图输出固定的分割结果,SAM在设计上可以同时输入原图和特定提示(点、框、阴影、文本),然后根据不同的提示输出不同的分割结果图,并且SAM支持不同提示的交互式分割。SA-1B覆盖了更广泛的图片区间,比第二大分割数据集多了11倍的图片400倍的mask。随着提示点的数量的增加,SAM的分割效果越来越高,随着提示点从1到9的增加,SAM方法和其他分割方法之间的gap越来越小。在论文的交互式分割任务中,有的提示信息,比如点的提示,存在模棱两可的情况。
2023-05-11 19:05:01 10578 1
原创 集7大模态(视频、图片、音频、文本、深度图、热力图、惯性)的IMAGEBIND
ImageBind 规避了这个难题,它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态,它们与图像的自然配对,如视频 - 音频和图像 - 深度数据,来学习一个联合嵌入空间。通过这样的训练方式,即使没有进行过(声音,文本)的专门训练,也可以取得SOAT的(声音,文本)分类能力。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。左后算loss的时候和clip一样,也是对称的交叉熵。
2023-05-10 16:38:18 1199
原创 视频文本检索之CLIP4Clip
通过分析发现预训练模型clip是基于2D线性投影训练的,却作为3D线性投影的初始化参数,这导致模型没有学习视频帧间的时序特征。模型为12层,宽度为512,包含8个注意力头。将文本特征W和视频特征Z拼接起来,得到拼接后的特征U,并将U和位置编码P,类型编码T进行拼接,输入Transformer进行编码,然后使用2个全连接层做特征投影,得到最终的输出。根据文本到视频检索中的相似性得分对给定查询本文的所有视频(或视频片段)进行排序,或者在视频到文本检索任务中对给定查询视频(或视频片段)的所有文本进行排序。
2023-05-09 20:00:10 1745
原创 推荐算法之DeepFM
大部分特征交互都隐藏在数据中,难以先验识别(比如经典的关联规则 "尿布和啤酒 "就是从数据中挖掘出来的,而不是由专家发现的),只能由机器学习自动捕捉,而深度神经网络恰恰可以弥补该缺陷。DeepFM融合了DNN的高阶特征和FM的低阶特征。二阶特征交互:通过对主流应用市场的研究,我们发现人们经常在用餐时间下载送餐的应用程序,这就表明应用类别和时间戳之间的(阶数-2)交互作用是CTR预测的一个信号。DeepFM模型是FM模型和DNN模型的组合,将两者的输出结果相加,进行sigmoid激活,输出0-1之间的得分。
2023-05-08 10:25:46 596
原创 图像文本检索之clip
在模型上一共尝试了8个模型,从resnet到ViT,最小模型和最大模型之间的计算量相差约100倍,迁移学习的效果基本和模型大小成正相关。(3)Clip的(image, text)对都是一一配对的,一个图片只对应一个句子,所以这里也没有像一个图片对应多个句子,可以对句子进行随机采样操作。(1)在训练过程中,文本的主干网络和图片的主干网络都没使用类似ImageNet的预训练权重做初始化,全部都是随机初始化的。Clip模型训练数据都是网络爬取的,缺乏数据的过滤和筛选,会存在社会歧视问题。
2023-04-27 17:38:31 1760
原创 Attention Is All You Need
self-attention中的Q,K,V也是起着类似的作用,在矩阵计算中,点积是计算两个矩阵相似度的方法之一,因此使用了QK进行相似度的计算。当你在某电商平台搜索某件商品(年轻女士冬季穿的红色薄款羽绒服)时,你在搜索引擎上输入的内容便是Query,然后搜索引擎根据Query为你匹配Key(例如商品的种类,颜色,描述等),然后根据Query和Key的相似度得到匹配的内容(Value)。解码器模块第一次输入是前缀信息,之后的就是上一次产出的Embedding,加入位置编码,然后进入一个可以重复很多次的模块。
2023-03-31 17:58:25 462
原创 医学图像分割之MedNeXt
对于一样大小的卷积核使用直接复制权值的方法进行初始化,对于比较大的卷积核,通过对小的卷积核进行三线插值得到大的卷积核。的思想进行了改进实现的全卷积网络,其通过全卷积网络和逆向残差瓶颈单元的设计,可以实现比较大的空间感受野。由于是全卷积的设计思想,所以不同输入图像的宽,高不会产生影响,但是不同的通道数却是会对模型产生影响。,对通道数进行压缩,最终保证输入的通道数等于输出的通道数,输入的分辨率等于输出的分辨率。的卷积实现,可以实现将不同通道数的输入都压缩在同样的通道数目上,这样就保证了模型参数的可复用。
2023-03-30 11:06:03 3539 1
原创 video caption之S2VT
在生成每个词时,均需通过softmax,所以可以看作随着时间步,每向前走一步都做了一次以词汇表为大小,选择其一的分类问题,选择的是置信度最大的那个词。例如,10000个词的词汇表中,在当前时间步中预测到man这个词。论文首次基于sequence to sequence提出一个端到端的模型S2VT,可以实现任意帧的视频输入(sequence of frames),输出任意个数单词(sequence of words)组合成的完整句子输出,从而实现video caption的任务。
2023-03-24 16:50:58 679
原创 IoU vs Dice vs F1-score
比如:这篇论文提供了权重和代码,我测出来的两个数值也是一样的,而且代码里面的计算公式和上面贴的公式一样,但是论文中给出来的结果就不一样了。两个公式的区别,就是Dice使用的不是预测的结果pred,而是预测的结果的得分pred_score,并且做了平方操作。但是我看论文里面虽然提供的公式是我上面贴的公式,但是他们的两个数值完全不一样,甚至还相差较大。除了我们熟知的miou指标外,Dice,F1-score这2个指标也是分割问题中常用的指标。还有这篇,这篇没有权重但是论文里写了公式。那么这个是怎么造成的呢?
2023-03-22 10:12:45 2042
原创 手语检测识别
文章首先使用openpose进行人体的关键点检测,然后基于前后帧的关键点归一化位移基于lstm进行2分类判断,即输出当前视频帧是否有做手语操作。其中fps表示视频的帧率,P表示关键点坐标,t表示t时刻,t-1表示t-1时刻,然后将t时刻的关键点坐标和t-1时刻的关键点坐标计算L2距离,然后再乘以fps,得到归一化的关键点位移特征,保证了该特征不会随着视频帧率不同而有差异。蓝色的线条代表不同身体部位的位移特征,主要的特征集中在手部,最下面的黄色线表示是否进行手语的ground_truth。
2023-02-14 12:00:33 1919 3
原创 安全帽检测
3174张图片,标签为蓝色安全帽(blue),白色安全帽(white),黄色安全帽(yellow),红色安全帽(red),没有帽子(none),共5类。标签为PASCAL VOC的xml格式和yolo的txt格式。5000张图片,标签为helmet,head,person,共3类,但是不是所有的person都有进行标注。7581张图片,标签为PASCAL VOC的xml格式。标签为hat,person,共2类。正样本hat从百度和谷歌爬取的,负样本正常人头person从人头检测数据集。
2022-12-12 10:26:00 1747
原创 人头检测之FRN
Stage2会对粗糙的小人头结果进行裁剪clip以及放大操作,放大系数f=3,最终会将人头从8-20像素放大为24-60像素,而对于20像素以上的人头,检测算法就可以得到非常好的结果。Stage3对放大后的人头基于局部检测进行检测得到修正后的人头结果。目前来看特征融合的思想yolov5中FPN+PAN的思想效果更好,多尺度检测的思想Yolov5的3个分支做检测也具备同样的思想。Concat后的特征再基于googlenet中特征融合的思想,进行特征融合以及下采样操作,得到最终的输出特征。
2022-12-01 11:08:54 890
原创 文本识别之MASTER
transformer的解码与lstm的解码类似,用encoder部分的输出计算注意力权重,并对输入向量重新分配,获得当前时刻的输入。在解码阶段首先用multi-head attention计算当前时刻的输入编码,得到tmp_feature,相当于LSTM中将时刻t-1的输出输入到模型中,随后获取encoder部分的输出,分别作为Key和quary,计算获得注意力权重,并利用该权重对tmp_feature(value)重新分配,得到当前时刻的特征结果。Encoding部分由4个block的残差模块组成。
2022-10-08 14:29:04 1464
原创 文本检测之DBNet,DBNet++
一个负责预测概率图(probability map,(w/4)*(h/4)*1),代销为,另一个负责预测阈值图(threshold map,(w/4)*(h/4)*1)。概率图经过阈值图处理,进行二值化后得到二值图(approximate binary map,(w/4)*(h/4)*1)。然后计算图内每个像素离最近的边(蓝色边,绿色边)的归一化距离,形成最终的阈值图。两者在效果上是一样的。为了保证整个优化过程有梯度的传递,这里又将概率图和阈值图的差传入sigmoid函数,以此来保证梯度的传递。
2022-09-29 11:19:27 11006 1
原创 ubuntu18.04下confluence7.4+mysql5.7.39安装教程
将/data2/wiki/atlassian/confluence/confluence/WEB-INF/lib/atlassian-extras-decoder-v2-3.4.1.jar。修改文件目录,/data2/wiki/atlassian/application-data/confluence/confluence.cfg.xml。同时复制到/data2/wiki/atlassian/confluence/confluence/WEB-INF/lib/目录下,将原来的进行替换。然后将新的拷贝过去。.
2022-08-11 11:34:20 979
原创 视频编解码之ZLMediaKit探索
GitHub:https://github.com/ZLMediaKit/ZLMediaKithttps://gitee.com/xia-chu/ZLMediaKit使用vs2017在win10平台进行编译。摄像头使用大华网络摄像头。实际使用使用MediaServer支持的HTTP API,使用postman进行测试。 拉流功能:http://127.0.0.1/index/api/addStreamProxy 关闭拉流功能:http://127.0.0.1/index/api/delStreamProx
2022-07-13 16:29:52 2135
原创 面筋面筋.
编程题:1,DAG(有向无环图),设计结构存储DAG,每个节点有一个类型名,判断DAG1中有多少子结构,使得其拓扑结构和对应结构的位置类型相同。讲思路,然后coding 讲code。2,编程,用积分图的方式,实现均值滤波积分图原理:而且,积分图只需遍历一次图像即可有效地计算出来,因为积分图每一点(x,y)的值是:所以,一旦积分图计算完毕,对任意矩形区域的和的计算就可以在常数时间内完成。如下图中,阴影矩形区域的和为:举个栗子,要求中间...
2022-04-16 20:12:01 3702
原创 人脸变形之移动最小二乘MLS
论文:Image Deformation Using Moving Least SquaresNonrigid Image Deformation Using Moving Regularized Least SquaresGithub:https://github.com/Jarvis73/Moving-Least-SquaresMoving Least Squares Deformation:• p: 一列控制顶点.• q: 控制顶点变换后的坐标.给定图上的一点 v, 求解.
2022-03-10 14:47:31 5063 2
原创 图像修复之lama
成功的途径有两条,一是开始,二是坚持。论文:Resolution-robust Large Mask Inpainting with Fourier ConvolutionsGithub:https://github.com/saic-mdal/lama基于目前主流的图像修复方法效果之所以差主要问题在于缺乏足够的感受野。网络结构和损失函数都是需要比较大的感受野的。基于此,论文提出了使用快速傅立叶卷积fast Fourier convolutions (FFCs)来增大感受野,...
2022-01-28 18:06:50 13507 17
原创 人像图片Relight
你读的书构成了你,如果用一个词来形容你,那会是----破局者。论文:Deep Single-Image Portrait RelightingGithub:https://github.com/zhhoper/DPRICCV2019重光照问题,需要解决人脸几何形状face geometry, 反射reflectance , 光照lighting这几方面的问题。首先,论文提出了基于ratio image-based (RI-based)方法生成人脸重光照的数据集portrait r..
2022-01-04 17:59:23 3439
原创 传统方法face-swap
论文:Face Swapping: Automatically Replacing Faces in Photographs整体流程:预处理阶段,首先要建立一个人脸库,论文中从Flickr和Yahoo中选取图片,并进行人脸检测,得到人脸欧拉角,限制人脸姿态yaw :±25,pitch:±15,并对人脸进行裁剪。最终得到33000张人脸图片,组成Face Library。 使用阶段输入任意图片,进行人脸检测和姿态估计,并进行人脸对齐。然后在Face Library中寻找分辨率,光照,..
2021-12-31 14:35:03 1977
原创 一种特定场景去除高光算法
成功的人生在于追求「完整」而不是「完美」 ----乔丹·皮特森算法思路:1、求取源图I的平均灰度,并记录rows和cols;2、按照一定大小,分为N*M个方块,求出每块的平均值,得到子块的亮度矩阵D;3、用矩阵D的每个元素减去源图的平均灰度,得到子块的亮度差值矩阵E;4、通过插值算法,将矩阵E差值成与源图一样大小的亮度分布矩阵R;5、得到矫正后的图像result=I-R;应用场景:光照不均匀的整体色泽一样的物体,比如工业零件,ocr场景。代码...
2021-12-28 14:47:12 3509
原创 颜色迁移(reinhard VS welsh)
reinhard算法:Color Transfer between Images,作者Erik Reinhardwelsh算法:Transferring Color to Greyscale Images,作者Tomihisa Welsh应用场景:人像图换肤色,风景图颜色迁移出发点:RGB三通道有很强的关联性,而做颜色的改变同时恰当地改变三通道比较困难。 需要寻找三通道互不相关的也就是正交的颜色空间,作者想到了Ruderman等人提出的lαβ颜色空间。三个轴向正交意味...
2021-12-07 12:00:13 5882
原创 传统图像处理之皮肤区域检测
1.RGB空间肤色在RGB模型下的范围基本满足以下约束:在均匀光照下应满足以下判别式:R>95 AND G>40 B>20 AND MAX(R,G,B)-MIN(R,G,B)>15 AND ABS(R-G)>15 AND R>G AND R>B在侧光拍摄环境下:R>220 AND G>210 AND B>170 AND ABS(R-G)<=15 AND R>B AND G>B代码:def skin
2021-12-01 14:52:33 3715
原创 人脸关键点检测之PFLD
论文:PFLD: A Practical Facial Landmark DetectorGithub:http://sites.google.com/view/xjguo/fldGitHub - polarisZhao/PFLD-pytorch: PFLD pytorch Implementation论文基于mobilbeNet v2的主干结构,设计了一个快速准确的人脸关键点检测模型,PFLD。其中,PFLD 0.25X仅仅2.1Mb,速度达到了140fps。难点挑战:Loca
2021-11-24 20:56:17 2356
原创 人脸属性识别的思考
目录数据,数据多人类任务网络设计:人脸识别vs表情识别:多任务训练问题:1.多任务训练过程中的此消彼长2.类别不平衡问题3.难易学习问题4.年龄,分类替代回归5.表情识别界线模糊问题6.eyeglass(yes,no),darkglass(yes,no)7.性别精度不足8.人脸关键点检测和人脸属性的适配问题9.左右眼问题时间是金钱,细节是魔鬼:数据,数据CelebA:(人脸属性) http://mmlab.ie.cuhk.edu.hk/pro.
2021-11-24 20:47:43 2149 10
2014facebookDeepLearningforVision:TricksoftheTrade.pdf
2017-03-02
VOC2007xml.zip
2016-12-02
CarFace-Detection-Adaboost.zip
2017-09-13
( libboost.zip )
2017-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人