自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 基于沙漏标记的高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示,传统的 VPT 采用了一个 “矩形” 的范式,即在模型的所有层中维持完整长度的 Pose Token,这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同,HoT 先剪枝去除冗余的 Token,再恢复整个序列的 Token(看起来像一个 “沙漏”),使得 Transformer 的中间层中仅保留少量的 Token,从而有效地提升了模型的效率。

2024-06-16 14:19:06 862

原创 基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块(DEAB),该模块由一个细节增强卷积(DEConv)和一个内容引导的注意力(CGA)机制组成,使得模型能够更好地保留图像的细节信息,同时又能关注图像中的重要信息,从而达到更好的去雾效果。除此之外,还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。

2024-06-06 11:01:02 620

原创 用于密集预测的多路径视觉Transformer

本周主要阅读了2022CVPR的文章,用于密集预测的多路径视觉Transformer,在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处,并提出了一种方法多路径视觉Transformer方法来解决,其主要思路就是通过嵌入CNN对多路径的物体进行特征提取,最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下,都取得比较好的成绩。另外我还对Transformer的相关知识以及代码进行了复习。

2024-06-02 13:15:19 644

原创 用于视频识别的快慢网络

本周主要阅读了CVPR文章, SlowFast Networks for Video Recognition。SlowFast模型网络是一种用于视频识别任务的深度学习模型。它的核心思想是将两种不同帧率的路径(慢途径和快途径)结合在一起,以便更好地捕捉视频中的时空特征。一个慢途径和一个快途径。慢途径以较低的帧率运行,负责处理低帧率下的信息,这意味着它具有较低的时间分辨率;而快途径以较高的帧率运行,负责处理高帧率下的信息,具有较高的时间分辨率。除了阅读文献之外,还学习了yoloV5框架的代码知识。

2024-05-26 13:46:06 702

原创 在视频中使用时间卷积和半监督训练进行三维人体姿态估计

本周主要阅读了CVPR文章, 3D human pose estimation in video with temporal convolutions and semi-supervised training。这是一种基于二维关键点和扩张时间卷积的全卷积模型,用于有效估计视频中的三维人体姿态,除此之外,还提出了一种名为“反投影”的半监督训练方法,该方法能够利用未标记的视频数据来增强模型的学习效果,这一过程不仅提高了模型对未标记数据的利用效率,而且显著提升了学习性能。

2024-05-19 20:17:05 976

原创 高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示,传统的 VPT 采用了一个 “矩形” 的范式,即在模型的所有层中维持完整长度的 Pose Token,这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同,HoT 先剪枝去除冗余的 Token,再恢复整个序列的 Token(看起来像一个 “沙漏”),使得 Transformer 的中间层中仅保留少量的 Token,从而有效地提升了模型的效率。

2024-04-28 15:21:51 908

原创 YOLO世界:实时开放词汇对象检测

本周主要阅读了CVPR文章,YOLO-World: Real-Time Open-Vocabulary Object Detection。是一种先进的实时开放词汇对象检测系统,它基于流行的 YOLO(You Only Look Once)对象检测框架。

2024-04-21 18:22:44 1023

原创 3D场景编辑方法——CustomNeRF

本周主要阅读了CVPR文章,Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global lterative Training。一种将文本描述和参考图像统一为编辑提示的CustomNeRF框架,可以通过微调预训练的扩散模型将参考图像中包含的特定视觉主体V∗嵌入到混合提示中,从而满足一般化和定制化的3D场景编辑要求。除此之外,还学习了简单的Transformer代码的学习。

2024-04-13 14:36:08 685

原创 Learning To Count Everything

本周主要阅读了CVPR文章,Learning To Count Everything。文章提出了一种名为FamNet的新型网络结构,是卷积神经网络(CNN)的改进版本。可以将FAMNet与CNN或其他类型的神经网络结合,形成更复杂的深度学习模型,以处理更复杂的图像识别任务。FamNet利用提供的示例对象和查询图像之间的相似性来估计密度图,从而实现物体计数。。除此之外,还学习学习了RNN代码的学习。循环神经网络(Recurrent Neural Network,RNN)是一种深度学习模型,用于处理序列数据。

2024-03-30 13:50:12 1241

原创 基于骨骼的动作识别的行动结构图卷积网络

本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。文章提出了一种名为AS-GCN的新型网络结构,用于处理基于骨架数据的人体动作识别问题。AS-GCN通过引入编码器-解码结构的A-link推理模块,可以直接从动作中捕捉到动作特定的潜在依赖关系。AS-GCN还扩展了现有的骨架图,以表示更高阶的依赖关系,即结构链接。通过将这两种类型的链接合并到一个通用的骨架图中。除此之外,还学习学习了U-net代码的学习。本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。

2024-03-23 15:30:04 1034

原创 带有超令牌采样的视觉转换器

本周主要阅读了CVPR文章,带有超令牌采样的视觉转换器。该论文提出了一个名为SViT的方法,这是一种基于Transformer的模型,SViT主要由以下几个关键组件构成:卷积位置嵌入(CPE)、卷积FFN(ConvFFN)及空间注意力(STA)模块,通过在Transformer中引入卷积层,使得模型能够更好地利用局部信息,同时保持了Transformer对全局信息的建模能力。除此之外,还学习学习了StokenAttention的注意力模块代码的学习。

2024-03-17 13:28:03 970

原创 文献阅读:DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块(DEAB),该模块由一个细节增强卷积(DEConv)和一个内容引导的注意力(CGA)机制组成,使得模型能够更好地保留图像的细节信息,同时又能关注图像中的重要信息,从而达到更好的去雾效果。除此之外,还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。

2024-03-09 22:58:18 2379 1

原创 基于场景文字知识挖掘的细粒度图像识别算法

本周主要阅读了2022CVPR的文章,基于场景文字知识挖掘的细粒度图像识别算法,该论文提出了一种通过挖掘场景文本背后的语义来增强分类模型理解图像内容的方法,该方法利用场景文字作为关键词,到Wikipedia知识库中检索出相关的知识,并获取其特征表达,和图像视觉特征进行融合理解,而并非仅仅利用场景文字的表面语义信息,这种方法能够更好地理解文字语义并不非常直观的内容,从而提升图像识别的性能。除此之外,我还学习复习了RNN的相关知识,并通过其实现过程来进行代码的学习。

2024-02-04 18:05:50 987

原创 一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率

本周主要阅读了2020CVPR的文章,一种通过增强的面部边界实现精确面部表示的多级人脸超分辨率,该论文提出了一种创新的MSFSR模型,旨在提高人脸超分辨率的精度和稳定性。通过多阶段处理和面部边界的增强,提高超分辨率模型对人脸的精细特征的重建能力,该模型能够更好地捕捉和处理人脸的精细特征和表情变化,从而在人脸超分辨率任务中取得更好的性能。除此之外,我还学习复习了LSTM的相关知识,并通过其实现过程来进行代码的学习。

2024-01-27 03:59:09 922

原创 具有运动模糊的大规模场景的混合神经绘制

本周的学习内容主要是以阅读文献为基础,在文献中了解前沿知识。这次共阅读具有运动模糊的大规模场景的混合神经绘制,了解移动运动模糊的神经辐射场中的问题,以及了解文中提出的视点依赖归一化方法的工作原理。此外还学习了解了YOLO模型,了解其大致的工作原理,与先前学习的卷积神经网络模型进行对比,并开始学习MMdetection的相关代码知识。YOLO是一种目标检测模型,全称You Only Look Once,属于目标检测模型的一种。目标检测是计算机视觉中相对简单的任务,旨在在一幅图像中找到特定的物体。

2024-01-21 16:39:47 834

原创 神经辐射场(NeRFs)的研究进展

本周主要阅读了2023 Computer Vision and Pattern Recognition的文章,神经辐射场(NeRFs)的研究进展,文章回顾了基本的NeRF框架,并探讨了迄今为止取得的一些最新进展。如PixelNeRF, RegNeRF,Mip-NeRF, Raw NeRF,NeRF in-the-Wild等相关NeRF技术。自2020年NeRF框架开发以来,已经进行了许多变体和扩展,大大提高了其性能和能力。该模型能够实现最先进的结果和逼真的渲染,为这种框架在视图合成和其他领域提供了许多机会。

2024-01-13 22:06:00 1089

原创 1/7文章

本周主要阅读了2023CVPR的文章,具有运动模糊的大规模场景的混合神经绘制,文章提出了一种混合神经渲染模型,用于合成高质量、视角一致的新视角图像。通过结合基于图像的表示和神经3D表示,以及模拟模糊效果,该模型能够有效地处理大型场景中的复杂结构和细节,并减轻运动模糊等缺陷对渲染图像质量的影响。另外我还对VAE的相关知识进行了复习。

2024-01-07 18:51:42 835

原创 12/31

本周主要阅读了2022CVPR的文章,用于密集预测的多路径视觉Transformer,在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处,并提出了一种方法多路径视觉Transformer方法来解决,其主要思路就是通过嵌入CNN对多路径的物体进行特征提取,最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下,都取得比较好的成绩。另外我还对Transformer的相关知识进行了复习。

2023-12-31 13:40:24 827

原创 YOLO模型

本周的学习内容主要是以阅读文献为基础,在文献中了解前沿知识。这次共阅读使用卷积神经网络和区域卷积神经网络(R-CNN)的肺部异常的检测与分类方法,了解了它们在图像识别的优势,以及对医疗诊断贡献。此外还学习了解了YOLO模型,了解其大致的工作原理,与先前学习的卷积神经网络模型进行对比。“You Only Look Once”是一种使用卷积神经网络进行目标检测的算法。YOLO是其中速度较快的物体检测算法之一。虽然它不是最准确的物体检测算法,但是在需要实时检测并且准确度不需要过高的情况下,它是一个很好的选择。

2023-12-24 19:46:40 1028

原创 文献阅读:重新审视池化:你的感受野不是最理想的

本周主要阅读了2022CVPR的文章,重新审视池化:你的感受野不是最理想的,在文章中讲解了当前用于卷积和池化运算的内核大小和步长,会影响感受野的配置,使其不理想,于是提出了一种动态优化池方法来解决,其主要思路就是这是一个可学习的调整大小模块,可以替代标准的调整大小操作,在最终的几个测试下,都取得比较好的成绩。除此之外,我还学习复习了GAN的相关知识,用于了解其与Stable Diffusion之间差别。

2023-12-17 19:54:05 868

原创 用于流式传输自由视点视频的神经残余辐射场

本周主要阅读了2023CVPR的文章,用于流式传输自由视点视频的神经残余辐射场,在文章中讲解了一种基于神经残余辐射场实现流式传输自由视点视频的方法,其主要思路就是建模时空特征空间中相邻时间戳之间的残差信息,将动作信息以及残差信息作为数据供给编码以及解码,在体积小的情况下实现质量和速度上均优秀的结果。除此之外,我还学习了解了傅里叶变换与卷积网络之间的相互理解,了解其是如何对卷积网络是如何与傅里叶变换产生联系的。

2023-12-09 22:47:37 949

原创 傅里叶变换

本周主要阅读了2023CVPR的文章,人类视频作为机器人学习资料的可供性,在文章中讲解了当前机器人学习人类行为的困难之处,并提出了一种方法视觉机器⼈桥(VRB)方法来解决,其主要思路就是以接触点和接触后轨迹来构建一个机器人能学习的模型,在最终的几个场景测试下,都取得比较好的成绩。除此之外,我还学习了解了傅里叶变换,了解其是如何对函数进行分解的,从傅里叶级数到时域和频域等等相关概念知识,开拓了视野。

2023-12-03 19:38:46 823

原创 用于密集预测的多路径视觉Transformer

本周主要阅读了2022CVPR的文章,用于密集预测的多路径视觉Transformer,在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处,并提出了一种方法多路径视觉Transformer方法来解决,其主要思路就是通过嵌入CNN对多路径的物体进行特征提取,最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下,都取得比较好的成绩。另外我还对Transformer的相关知识进行了复习。

2023-11-26 11:40:20 864

原创 人类视频作为机器人学习资料的可供性+ResNet验证码验证

本周主要阅读了2023CVPR的文章,人类视频作为机器人学习资料的可供性,在文章中讲解了当前机器人学习人类行为的困难之处,并提出了一种方法视觉机器⼈桥(VRB)方法来解决,其主要思路就是以接触点和接触后轨迹来构建一个机器人能学习的模型,在最终的几个场景测试下,都取得比较好的成绩。另外我还完成了ResNet模型对验证码识别的训练和测试任务,相比CNN,其性能提升巨大,侧面验证了其解决了网络消失的问题。

2023-11-19 14:30:33 177

原创 CNN模型训练--验证码辨认的代码实践

在本周,主要是动手实现上周复习的卷积神经网络,代码实现验证码辨认,整个实现过程主要分为几个步骤,收集训练数据、构建网络结构、训练模型、测试模型。在其中获取数据方面,是利用电脑自动生成,这样就能快速拥有标注过的数据。网络结构则是三层卷积层以及两层全连接层。经过几次训练可以得到结论,随着数据量的增加,模型辨认的准确度越来越高。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-11-12 20:45:51 92

原创 CNN知识回顾

因为机器学习课程的相关要求,本周的主要回顾了卷积神经网络相关知识,回顾卷积神经网络改进的结构残差网络以及密集连接网络。对于卷积神经网络,详细地了解其结构的构造,以及其各层的功能。对于残差网络和密集连接网络,则是了解了它们在卷积神经网络上改造内容,以及改进的思路。CNN的全称是"Convolutional Neural Network"(卷积神经网络)。其中神经网络是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)结构和功能的数学模型或计算模型。

2023-11-05 19:18:53 39

原创 密集连接的卷积网络

本周主要阅读了CVPR 2017的经典论文,密集连接的卷积网络。因为前段时间对残差学习网络的学习,了解到其对网络整体更新的优化作用,学习到了卷积神经网络创新取决于其结构创新,于是在这次学习了也是结构创新的网络结构密集连接型的网络结构,在论文中了解到了其结构提出思路、整体网络结构及结构细节优化,在阅读完后对其结构优点作出了总结。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-10-29 18:16:00 244 1

原创 超分辨率图像处理与残差网络

本周学习内容主要从超分辨率图像处理的方向进行入手,通过阅读文献,Real-world single image super-resolution:A brief review 来了解超分辨率技术的相关概念,学习该技术的处理过程的框架,从而形成一个比较完整的认识。在对该技术有了一定的了解后,看了两篇文献。

2023-10-22 21:40:50 231 1

原创 用于图像识别的深度残差学习的文献阅读以及Tensorboard画图学习

本周的学习内容主要分为两部分,文献阅读和tensorboard画图实践。其中文献为深度残差学习,文中提出了残差学习的思路与方法,有效地解决了因为网络深度增加导致的网络退化,学习到了残差学习解决网络退化和冗余层的问题细节。在使用tensorboard画图实践上,学习使用scalar画了简单的折线图以及CNN的损失函数图形,除此之外还使用graph画出来CNN的结构图。

2023-10-13 22:58:18 163 1

原创 CNN论文阅读与拓展学习

本周的学习内容主要是以阅读文献为基础,在文献中了解前沿知识。这次共阅读了两篇文献,主要内容均为CNN模型及其改进变体R-CNN,Fast-CNN以及Faster-CNN,了解了它们在图像识别的优势,以及对医疗诊断、植物病变识别方面的贡献。除此之外,还额外了解了R-CNN框架的相关细节,比如它的选择搜索算法、边框回归等。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-10-08 18:57:55 128 1

原创 机器学习课程学习周报十七

在本次的机器学习课程中学习的内容主要是Self-Supervised Learning,在这其中包含着许多的模型,以BERT以及GPT最为著名,这节的学习便是以BERT为主。在BERT的学习中,学习到了其大致的工作原理,在四种任务中的工作流程。此外还了解了BERT的Adapator的适应性。在GPT的学习中学习中,了解到庞大的参数量、训练任务目标以及相应的训练方式。

2023-10-01 18:25:32 185

原创 机器学习课程学习周报十六

在本次的机器学习课程中学习的内容主要分类两部分,VAE模型以及Flow-based生成模型。在对VAE模型学习过程中,了解VAE与Auto-encoder之间存在着差异,相比之下也有着很大的提升;对VAE的工作原理以及其与Gaussian Mixture Model的关系有了大致了解。在Flow-based生成模型中,学习了其与真实数据之间的模仿过程,对模型的优化与VAE一样也是通过不断优化Likelihood的过程,其中对Jocobite矩阵计算的优化更是优化过程的重中之重。

2023-09-24 18:02:44 73 1

原创 机器学习课程学习周报十五

在本次的机器学习课程中学习的内容主要集中在GAN的训练当中,GAN的训练主要包括对两部分的训练,即Generator和Discriminator,这两部分是相辅相成的,需要不断对其进行调整优化,也就是如何对公式V(G , D)进行优化。需要注意的是,对GAN模型进行优化的过程中会出现不小的问题,为了解决这些问题,需要对GAN进行改进得到改良版WGAN和WGAN-GP。此外还了解了GAN加入卷积卷积神经网络、条件的DCGAN和CGAN。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-09-16 23:51:18 115 1

原创 机器学习课程学习周报十四

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档。

2023-09-09 17:49:41 110

原创 机器学习课程学习周报十三

在本次的机器学习课程中学习的内容主要监督学习与非监督学习两种学习方法的基础。其中在监督学习的学习中,了解了监督学习相关概念、BERT架构以及两种BERT的方法Masking Input以及Next Sentence Prediction,在这个基础上学习了解了四个BERT例子。在非监督学习的学习中,了解了非监督学习的相关概念以及其分类,并对其相应分类进行更深层次的学习。监督学习(Supervised Learning)是指利用一组已知类别的样本调整分类器的参数,使其达到要求性能的过程。

2023-09-03 11:43:32 46

原创 机器学习课程学习周报十二

在本次的机器学习课程中学习的内容主要是学习GAN神经网络架构的相关知识,了解了GAN的工作原理,以及其结构。其中结构主要分为两部分Generator和Discriminator,了解了它们的关系,GAN的训练需要其两者互相配合。GAN的训练有着许多需要注意的问题,要了解其训练目标以及相关的细节处理。最后学习了如何对GAN结构的输出进行评判。在以往学习过的模型当中,通常都是以一种映射关系来对应输入以及输出的,就像输入的值为x,经过神经网络处理后便能得到一个对应的y。

2023-08-27 18:05:13 78

原创 机器学习课程学习周报十一

在本次的机器学习课程中学习的内容主要是学习Self-attention的其他计算方法,使用以往的Self-attention的方法在处理数量庞大的数据中会表现不好、进展缓慢的情况。对此有以下的几种方法对Self-attention的初始方法进行优化,这些方法包括特殊元素计算法、重要性侧重法、机器自学习计算法、代表性元素计算法、计算顺序调整法以及Synthesizer等。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-08-22 10:19:36 61 1

原创 机器学习课程学习周报十

在本次的机器学习课程中学习的内容主要是Transformer,课程讲述了Transfomer与Sequence-to-sequence的关系,现实中利用该框架的现实应用。学习了Transformer的总体框架,了解框架内部的功能部件Encoder和Decoder各自的功能以及两者之间的连接方式,又因为部件中涉及新的影响顺序,便引出了新的Self-attention(Mask),了解到其与Self-attention的差别。

2023-08-13 12:33:25 89 1

原创 机器学习课程学习周报九

在本次的机器学习课程中学习的内容主要是GNN,即图神经网络。其中总的框架分为了两部分,第一,GNN的基础,了解了GNN的概念以及GNN在现实中的实际用途;第二,这部分是重中之重,主要讲述了如何训练出一个性能好的GNN模型,主要的方式用两种,卷积方式以及信号转换方式。GNN,即Graph Neural Network,是指基于图的神经网络,它是一种特殊的深度学习模型,主要用于处理具有复杂结构的数据,就比如处理数据结构中的红黑树、化学中的复杂化学结构、构成身体之间的蛋白质图像以及地铁线路图等。

2023-08-06 02:33:43 49

原创 机器学习课程学习周报八

在本次的机器学习课程中学习的内容主要是两个部分。第一个是学习RNN的基础相关概念,了解了它与之前学习的模型的差异、在工作中的流程、在现实它的代价函数以及在现实它的代价函数表现差的原因和处理;第二个是学的基础相关概念。了解了它的实现结构、的理论与实际的实现过程。以及与RNN的不同之处。RNN,即循环神经网络(Recurent Neural Network)又称递归神经网络。在传统的神经网络模型中,都是从输入层经过隐藏层,再到输出层,每一层之间的节点都是没有连接的,它们之间没有保存任何状态信息。

2023-07-30 20:34:53 63 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除