传知代码
文章平均质量分 96
分享论文复现的文章
亦世凡华、
个人:csdn内容合伙人、阿里云专家博主、51CTO博主;目标:深耕技术,追求代码之美,享受编程人生;当下:珍惜时间,奋发学习;未来:渴望成为一名真正的全栈大佬,并为此一直努力,矢志不渝!
展开
-
【传知代码】揭秘AI如何揪出图片中的“李鬼”(论文复现)
在如今这个“P图大神”遍地走的时代,图片的真实性越来越难以保证。尤其是在文档图像领域,篡改文字、伪造证书等行为可能带来严重的风险。想象一下,你正准备签一份重要合同,却发现附件中的资质证书似乎有点不对劲。是的,你没猜错,这正是图像篡改的“作案现场”,然而,我们必须强调的是,尽管我们的模型在检测文字图像篡改方面具有较高的准确率,但它并不是万能的。AI的能力受限于其训练的数据和算法的设计。在检测物体擦除或人脸P图等更为复杂的图像篡改时,我们的模型可能无法提供同样准确的结果。原创 2024-07-01 12:23:00 · 937 阅读 · 2 评论 -
【传知代码】上下位关系自动检测方法(论文复现)
在自然语言的处理过程中,上下位关系(Is-a Relationship)是用来描述概念(也被称为术语)间的语义涵盖关系。在这里,上位词(Hypernym)代表了下位词(Hyponym)的抽象和泛化,而下位词则是对上位词的具体化和特定性。以“水果”为例,它与“苹果”、“香蕉”、“橙子”等词是同义的,而“汽车”、“电动车”、“自行车”等词则与“交通工具”相对应。在处理自然语言的任务时,深入理解概念间的层级关系对于执行如词义消歧、信息检索、自动问答和语义推理等任务都是至关重要的:本文复现论文。原创 2024-06-10 11:51:01 · 740 阅读 · 0 评论 -
【传知代码】BLIP - VLP任务的新框架(论文复现)
视觉语言预训练(VLP)显著提升了众多视觉语言任务的执行效果。其中,对图像和文本进行分类是一种重要的预训练任务。尽管如此,目前大部分的预训练任务主要集中在基于理解或基于生成的任务上。这些预训练方法都没有考虑到用户对输入的反馈和交互。尽管利用Web收集的带有噪声的图像-文本对来扩充数据集在很大程度上增强了其性能,但这种方法仍然是一个不太理想的监控来源。BLIP代表了一种创新的VLP架构,它能够灵活地应用于视觉语言的理解和生成任务中,在视频解码系统中,字幕的处理非常重要。原创 2024-06-09 11:46:26 · 609 阅读 · 1 评论 -
【传知代码】DETR[端到端目标检测](论文复现)
在进行目标检测时,需要大量手动设计的组件,比如非极大值抑制(NMS)和基于人工经验生成的先验框(Anchor)等。DETR在其文章中,将目标检测视为一个直接的集合预测任务,从而减少了对人工组件设计的依赖,并使目标检测流程更为简洁。当提供一组固定的、可学习的目标查询DETR来推断目标与全局图像之间的上下文关系时,由于DETR没有先验框的限制,这将使其在预测较大物体时表现得更为出色。如下图展示的是DETR的核心框架。由于直接使用了transformer的结构,这导致模型的计算需求增加。原创 2024-06-08 21:53:54 · 1306 阅读 · 6 评论 -
【传知代码】Noise2Noise图像去噪(论文复现)
本文所涉及所有资源均在传知代码平台可获取本文复现论文Noise2Noise: Learning Image Restoration without Clean Data中提出的图像去噪方法,并使用最广泛应用的高斯噪声与泊松噪声来做实验,原文连接 地址 ,具体如下: 该论文证明了,对于同一张干净图片,如果分两次污染它所用的噪声同分布且0均值的情况下,那么用这一对噪声图像进行网络训练即noise2noise的训练方法就能达到与用干净-噪声图像对即noise2clean的训练方法接近的去噪效果,该方原创 2024-06-08 10:53:18 · 1110 阅读 · 0 评论 -
【传知代码】基于曲率的图重新布线(论文复现)
大部分的图神经网络(Graph Neural Networks GNN)采用消息传递模式,在这种模式下,节点的特性会在输入的图上进行传递。近期的科学研究揭示,来自遥远节点的信息丢失确实是影响依赖于远程交互任务的消息传输效率的一个关键因素。这种限制通常被命名为“过度挤压”(Over-squashing)。原创 2024-06-07 22:26:09 · 770 阅读 · 0 评论 -
【传知代码】BEVFormer详细复现方案(论文复现)
本文介绍了一种新的框架——BEVFormer,用于学习具有时空Transformer的统一BEV表征,以支持多个自动驾驶感知任务。BEVFormer利用空间和时间信息,通过预定的网格状BEV查询向量与空间和时间域交互。为了聚合空间信息,作者设计了一个空间交叉注意力,每个BEV查询向量从跨相机视图的感兴趣区域提取空间特征。对于时间信息,作者提出了一种时间自注意力来递归融合历史BEV信息。原创 2024-06-05 21:55:48 · 1295 阅读 · 1 评论 -
【传知代码】偏标记学习+图像分类(论文复现)
随着深度神经网络技术的不断进步,对于标注数据在机器学习任务中的需求也在持续上升。然而,大规模的标注数据高度依赖于人力资源和标注者的专业技能。弱监督学习方法能够有效地解决这个问题,因为它并不需要完整且精确的数据标注。这篇论文集中探讨了一个关键的弱监督学习难题,即偏标记学习(Partial Label Learning),在这个问题中,每一个训练案例都与一组可能的标签有关,但只有其中一个标签是真实存在的,如下图所示:本文复现论文地址。原创 2024-06-05 10:12:10 · 669 阅读 · 0 评论 -
【传知代码】时序预测:多头注意力+宽度学习(论文复现)
深度神经网络虽然具有残差连接来确保信息完整性,但需要较长的训练时间。宽度学习模型则采用级联结构实现信息重用,保证原始信息的完整性。它是一个单一、简单且专门化的网络,无需重新训练,并具有大多数机器学习模型的快速解决能力和大多数深度学习模型的拟合能力。对于宽度学习模型的更深入理解,请参阅原文(链接提供)。此外,该论文指出,多头注意力机制能够充分提取不同维度和层次的关键特征,并有效利用这些关键特征。原创 2024-06-04 22:46:53 · 879 阅读 · 0 评论 -
【传知代码】知识图谱推理(论文复现)
这项研究主要集中在基于图神经网络(GNN)的知识图谱推断上,尤其是对传播路径的应用和优化给予了特别的关注。目前已有大量关于传播模型构建及相关算法的文献报道,然而大多数都是针对特定场景或具体问题展开研究。在诸如智能问答和推荐系统这样的领域中,知识图谱推理扮演着至关重要的角色,然而,传统的GNN方法在执行效率和准确性上仍有其局限性,因此,如何有效地利用已有信息资源提高学习质量是当前该研究领域亟待解决的难题之一。原创 2024-06-04 09:16:14 · 1024 阅读 · 0 评论 -
【传知代码】探索视觉与语言模型的可扩展性(论文复现)
视觉与语言结合模型的兴起标志着一个重要的发展阶段。这些多模态模型不仅能够理解图像内容,还能够处理和生成与图像相关的语言描述,极大地推动了跨模态交互和理解的进展。从社交媒体的内容标签到自动图像标注,再到复杂的视觉问答和场景理解任务,这些模型在多个应用场景中展现出了巨大的潜力。随着技术的进步,这些模型正在逐渐渗透到我们的日常生活中,成为连接视觉世界与语言理解的桥梁。原创 2024-06-03 21:15:56 · 808 阅读 · 0 评论 -
【传知代码】图像高清化(论文复现)
图像超分辨率技术涉及从低分辨率的图像中恢复到高分辨率的图像,这在计算机视觉和图像处理领域是一种关键的方法。由于其具有重建精度高、速度快等特点,已成为研究热点之一。在实际的使用场景中,它具有众多的应用场景。目前,已有许多基于卷积神经网络的超分辨率算法被提出并得到成功应用。随着深度学习技术的不断进步,超分辨率方法在性能上实现了显著的提升。目前已经提出了一些基于卷积神经网络的、能够处理大量低维空间信息的、具有较好泛化能力的、能有效解决高维稀疏问题的超分辨算法。原创 2024-06-03 08:58:52 · 1082 阅读 · 0 评论 -
【传知代码】多视图3D目标检测位置嵌入变换(论文复现)
多视角图像中的3D目标检测由于其在自动驾驶系统中的低成本而具有吸引力,如下图所示:1)在DETR中,每个对象查询表示一个对象,与Transformer解码器中的2D特征交互以产生预测的结果。2)在DETR3D中,由对象查询预测的3D参考点通过相机参数投影回图像空间,并对2D特征进行采样,以与解码器中的对象查询进行交互。3)PETR通过将3D位置嵌入编码到2D图像特征中生成3D位置感知特征,对象查询直接与3D位置感知特征交互,并输出3D检测结果。原创 2024-06-02 09:16:15 · 731 阅读 · 1 评论 -
【传知代码】无监督目标检测最新CVPR解读(论文复现)
今天我们介绍一篇CVPR2024的最新无监督三维目标检测的SOTA工作,这篇论文介绍了一种名为CommonsensePDetector(CPD)的方法,用于解决无监督三维目标检测中的挑战,可以点击论文地址进行查看,如下图所示:在当前的无监督三维目标检测方法中,通常采用基于聚类的伪标签生成和迭代式自训练过程。然而,由于激光雷达扫描的稀疏性,导致生成的伪标签存在尺寸和位置上的错误,从而影响了检测性能。原创 2024-06-01 23:13:22 · 814 阅读 · 0 评论 -
【传知代码】基于知识引导提示的因果概念提取(论文复现)
预训练语言模型(PLMs)在进行概念提取时,通常更多地依赖于文本中的共现关系,而不是实际存在的因果关系,这导致了提取结果的偏差和低精度。为了应对这一难题,本研究提议利用知识导向的提示来介入PLM的概念提炼过程。这一建议通过利用已有的知识图谱来协助PLM更加关注相关的概念,从而降低对虚假共现的依赖,并进一步提升数据提取的准确性。原创 2024-06-01 11:13:40 · 763 阅读 · 1 评论 -
【传知代码】双深度学习模型实现结直肠癌检测(论文复现)
结直肠癌是一种全球范围内常见的恶性肿瘤,其发病率和死亡率呈上升趋势,早期发现对提高治疗效果和患者生存率至关重要,但传统诊断方法存在主观性和时间成本高的问题,结直肠癌组织切片图像具有复杂结构,需要精确的图像处理技术来辅助诊断,开发基于深度学习的结直肠癌识别系统,旨在提高诊断效率,减少传统方法的局限性。利用深度学习技术自动分类结直肠癌图像,为医生提供可靠的辅助工具,提升临床决策质量。原创 2024-05-31 22:28:01 · 1120 阅读 · 1 评论 -
【传知代码】MonoCon解读与复现(论文复现)
这篇文章描述了一种叫做MonoCon的技术,它主要用于辅助单目深度目标检测任务的学习过程。这种方法采用了训练数据中的丰富投影2D监督信号作为辅助工具,在训练过程中同时掌握了目标的3D边界框和辅助上下文信息。经过实验验证,这种方法在KITTI基准测试中展现出了卓越的性能,并且推理的速度也相当迅速。原创 2024-05-31 15:08:40 · 794 阅读 · 1 评论 -
【传知代码】命名实体识别(论文复现)
在自然语言处理(NLP)领域,实体识别任务(Named Entity Recognition,简称NER)被视为一个核心任务,其主要目的是从文本资料中进行实体的识别和分类命名。命名实体一般都是由专有名词组成的,例如人名,地名和组织名。下面的图示展示了一个基础的实体提取任务,该任务从句子中提取了阿里巴巴(组织名)、马云(人名)以及杭州(地名)这三个不同的实体:NER 的主要目标是找到文本中有意义的实体,并将其归类到预定义的类别中。以下是一些常见的类别:人名(Person):例如“乔布斯”、“马云”。原创 2024-05-30 11:30:34 · 1016 阅读 · 1 评论 -
【传知代码】自监督高效图像去噪(论文复现)
随着深度学习的发展,各种图像去噪方法的性能不断提升。然而,目前的工作大多需要高昂的计算成本或对噪声模型的假设。为解决这个问题,该论文提出了一种自监督学习方法。该方法使用一个简单的两层卷积神经网络和噪声到噪声损失(Noise to Noise Loss),在只使用一张测试图像作为训练样本的情况下,实现了低成本高质量的图像去噪,本文复现一篇论文相关内容,该论文提出的方法主要包含三个部分:成对下采样、残差损失、一致性损失。该成对下采样器将原始图像下采样为长宽只有原先一半的子图。原创 2024-05-29 20:42:43 · 2040 阅读 · 4 评论 -
【传知代码】遵循人类指令的高质量图像修复(论文复现)
在计算机视觉领域,图像恢复始终是一个受到广泛关注的议题,这是因为图像可能会因各种因素如噪声、模糊和雨滴等而受到降级处理。降级可以分为局部降级和全局降级两种方式。这些图像降级操作不仅降低了图像质量,还限制了图像在多种应用场景中的实用性。因此,如何对降级进行有效地分类和识别成为一个重要研究方向。尽管传统的图像恢复技术在某些特定的任务中表现得相当出色,但它们在处理多种不同的降级任务时,往往不能实现良好的泛化效果。为了提高退化图像恢复的精度和鲁棒性,需要研究新的算法来实现不同级别降级的有效分离。原创 2024-05-28 14:35:56 · 675 阅读 · 0 评论 -
【传知代码】基于图神经网络的知识追踪方法(论文复现)
论文链接提出了一种基于图神经网络的知识追踪方法,称为基于图的知识追踪(GKT)。将知识结构构建为图,其中节点对应于概念,边对应于它们之间的关系,将知识追踪任务构建为图神经网络中的时间序列节点级分类问题。在两个开放数据集上的实证验证表明,方法可以更好地预测学生的表现,并且该模型比先前的方法具有更可解释的预测,其贡献如下:1)展示了知识追踪可以重新构想为图神经网络的应用。2)为了实现需要输入模型的图结构,在许多情况下并不明确的情况下,我们提出了各种方法,并使用实证验证进行了比较。原创 2024-05-27 13:11:26 · 917 阅读 · 0 评论 -
【传知代码】无监督动画中关节动画的运动表示(论文复现)
动画在教育和娱乐等多个领域得到了广泛的运用,同时也强调了动画在内容创意、故事叙述清晰度和用户体验方面的显著提升。过去,要达到这些动画效果,通常都需要接受过专门培训的技术人员、特定的硬件和软件,以及大量的实际操作。尽管目前仍需专业的知识和持续的努力,但在视觉和图形领域,通过对某些已知的对象类别进行数据驱动方法的培训,我们试图克服其中的某些局限性。近年来,有些工作试图通过运动转移进行无监督,以规避真实数据要求。通过采用图像重建为损失函数,并对运动与外观进行解耦,使训练有明显的进步。原创 2024-05-26 11:09:35 · 338 阅读 · 0 评论 -
【传知代码】掩码自回归编码器法(论文复现)
掩码自动编码器MAE是一款具有可扩展性的计算机视觉自我监控学习器。它可以从一个不完整或错误的图像序列中提取出感兴趣的信息来进行分类和识别,在图像处理领域得到了广泛的应用。MAE的核心策略包括:对输入图像的随机补丁进行屏蔽,并对遗失的像素进行重建,这一策略是基于两个主要的设计思路,如下:1)一种非对称编码器-解码器架构,其中编码器只对可见的补丁子集进行操作(没有掩码标记)2)一个轻量级解码器,它根据潜在表示和掩码标记重建原始图像。原创 2024-05-25 11:00:18 · 937 阅读 · 0 评论 -
【传知代码】基于多模板配准的心腔分割算法(论文复现)
本文复现论文地址提出的心腔分割算法:对于心脏子结构的精确划分、模型构建和深入分析,在临床应用开发中具有至关重要的作用。尽管如此,对所有心脏的子结构进行分割仍然是一个巨大的挑战,并且目前还主要依赖于手工操作。为了克服这个挑战,这篇论文介绍了一种依赖于多模板图像配准技术的自动全心分割方法。这篇论文介绍了一种方法,用于对患者CT图像的中心脏区域的七个子部分进行图像划分。原创 2024-05-24 09:42:43 · 949 阅读 · 0 评论 -
【传知代码】针对股票评论的情感分类器(论文复现)
Transformer模型因其出色的表征学习能力,能够在大量的文本数据上进行预先的训练,并展现出广泛的适用性。因此,Transformer模型在自然语言处理领域得到了广泛的应用,并在各种任务中,包括情感分析,都展现出了卓越的性能。在这篇文章中,我们采用了股票市场上股民的评论数据作为训练数据。投资者的情绪和情感对股票市场有着显著的影响。通过对这些股票评论进行深入的情感分析,分析师和投资者可以更准确地掌握市场参与者的情绪状况,进而更好地预测市场的未来走向;原创 2024-05-23 13:15:52 · 698 阅读 · 6 评论 -
【传知代码】微表情识别系统(论文复现)
面部表情图像预处理是面部表情识别的重要步骤,主要目的是在于提取特征之前排除一切与面部表情无关的干扰因素。例如,环境光照、姿势和不同背景等。在干扰排除后,将人类面部直接与公共参考系相对接、使每个面部特征对应的语义位置精准无误。人脸检测、人脸对齐、数据增强、人脸一是实现面部表情图像预处理的主要方法,其实现的大体逻辑如下:微表情识别系统是一个极具前景和价值的领域,可以帮助我们更好地理解和应对人类情感、健康、安全和商业等方面的问题。原创 2024-05-22 21:40:10 · 1008 阅读 · 1 评论 -
【传知代码】图像风格迁移技术(论文复现)
图像风格迁移是指将一张图像的内容与另一张图像的风格相融合,生成具有新风格的图像,风格(style)是指图像中不同空间尺度的纹理、颜色和视觉图案,内容(content)是指图像的高级宏观结构。风格迁移这一想法与纹理生成的想法密切相关,在 2015 年开发出神经风格迁移之前,这一想法就已经在图像处理领域有着悠久的历史。但事实证明,与之前经典的计算机视觉技术实现相比,基于深度学习的风格迁移实现得到的结果是无与伦比的,并且还在计算机视觉的创造性应用中引发了惊人的复兴。原创 2024-05-22 11:20:17 · 645 阅读 · 3 评论 -
【传知代码】多行人姿态检测系统(论文复现)
本系统使用简单,能够自动实时地对老人、儿童、残障人士等实现看护,因而容易在这一目标用户进行推广。当今处于老龄化的社会,老年人数量基数大,同时由于独生子女政策和社会压力的剧增,导致子女很难抽出时间去照顾老人和儿童,而本产品能够在保障被看护人员安全的前提下最大限度地减少看护人员的精力投入,易于被年轻人所接受。养老院、医院数量的增多、交通的日益发达,这些应用场景均可作为本产品的受众对象,能够帮助其解决人员优化调度的问题。原创 2024-05-21 09:29:21 · 1038 阅读 · 6 评论 -
【传知代码】基于扩散模型的无载体图像隐写术(论文复现)
目前,图像隐写技术主要是基于载体图(cover image)的方法,这些方法通常存在泄露隐藏图(secret image)的风险,以及对退化容器图(container image)不鲁棒的风险。受到最近扩散模型(diffusion models)进展的影响,作者揭示了扩散模型所具备的两大特点:一是能够在不进行训练的情况下完成两幅图像间的转换,二是对有噪声的数据具有天生的稳健性。这些建议的特点有助于提高图像隐写任务的安全与稳健性。这是第一次尝试将扩散模型融入到图像隐写的研究中。原创 2024-05-17 20:13:49 · 1166 阅读 · 12 评论 -
【传知代码】情感神经元的意外发现(论文复现)
在2017年4月发布Unsupervised Sentiment Neuron算法的文章《》中指出,“真正的良好预测是和了解联系在一起的”,以及“神经网络在仅用于预测下一个字符的训练后,便自动掌握了情感分析的技巧”。尽管训练出的这个系统初始只是为了能够预测亚马逊评论文本中的下一个字符,而让人惊讶的是,该系统中还出现了意料之外的「情感神经元(sentiment neuron)」,其囊括了几乎所有的情感信号。原创 2024-05-16 20:52:14 · 894 阅读 · 7 评论 -
【传知代码】VRT: 关于视频修复的模型(论文复现)
视频修复技术(Video Restoration Techniques,VRT)是一种利用计算机视觉和图像处理技术来改善、修复和恢复视频内容的方法。其主要目的是消除视频中存在的噪声、模糊、失真、抖动等问题,使视频内容更清晰、更稳定,并且提高其视觉质量和观感。其实现的作用是:1)噪声去除:使用去噪算法来消除视频中的各种类型的噪声,例如高斯噪声、椒盐噪声等,以提高图像质量和清晰度。2)运动补偿:通过分析视频中的运动信息,利用运动估计和补偿技术来减少视频中的运动模糊,使图像更加清晰和稳定。原创 2024-05-15 20:15:49 · 1112 阅读 · 8 评论