- 博客(64)
- 收藏
- 关注
原创 传知代码-基于BERT的语义分析实现
在之前的文章中,我们介绍了BERT模型。BERT作为一种预训练语言模型,它具有很好的兼容性,能够运用在各种下游任务中,本文的主要目的是利用数据集来对BERT进行训练,从而实现一个语义分类的模型。
2024-11-10 22:50:17 691
原创 传知代码-【算法】实体关系抽取(论文复现)
实体关系抽取是自然语言处理领域的一个常见任务,它常常和实体识别任务伴生,他们都属于图谱三元组的提取任务。实体识别任务提取出实体,实体关系抽取任务则是负责判断两个实体之间的关系。例如:在句子"Albert Einstein was born in Ulm"中,实体识别任务会识别出"Albert Einstein"和"Ulm"两个实体,而实体关系抽取任务则会判断这两个实体之间的关系是“出生地”(place of birth)。
2024-11-08 15:59:20 619
原创 传知代码-语言模型中的多模态链式推理(论文复现)
本文主要对2023一篇论文《》主要内容进行介绍。大型语言模型(LLM)通过利用思想链(CoT)提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的CoT研究主要集中在语言模态上。这篇文章提出了多模态CoT,将语言(文本)和视觉(图像)模式结合到一个分为两个阶段的框架中,该框架将基本原理生成和答案推理分开。通过这种方式,答案推理可以利用基于多模式信息的更好生成的理由。
2024-11-05 19:09:09 618
原创 传知代码-辅助任务改进社交帖子多模态分类(论文复现)
这篇文章的主要内容是关于如何通过利用图像-文本辅助任务来提高社交媒体帖子的多模态分类效果。研究者们在多模态模型微调过程中联合使用了两种辅助损失:图像-文本对比(Image-Text Contrastive, ITC)和图像-文本匹配(Image-Text Matching, ITM)。ITC 旨在最小化帖子内部图像和文本表示之间的距离,从而有效地弥合图像在传达帖子意义中扮演重要角色时的鸿沟。ITM 则增强了模型理解图像和文本之间语义关系的能力,提高了处理模糊或关系不紧密模态的能力。
2024-11-03 22:02:52 923
原创 传知代码-MMSD2.0和多模态讽刺检测(论文复现)
这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建,旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准(MMSD)存在的一些问题,包括模型偏差学习和不合理的负面样本标注。为了解决这些问题,作者提出了MMSD2.0,这是一个修正后的数据库,通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。此外,文章还介绍了一个名为multi-view CLIP的新颖框架,该框架能够利用来自多个视角(即文本、图像和文本-图像交互视角)的多粒度线索进行多模态讽刺检测。通过大量实验
2024-11-01 18:26:14 795
原创 传知代码-自动图像标注(论文复现)
本文基于论文[1]实现图像自动标注程序。计算机技术的进步和互联网产业的不断发展导致了网络图像数量的爆炸式增长,如何管理种类繁多的海量图像成为了一个重要问题。自动图像标注(Automatic Image Tagging)作为一项重要的图像管理技术,可以利用计算机自动为每张图像打上与其内容有关的标签,从而帮助用户更好地搜索和访问图像。图1:图像自动标注任务近年来,随着深度学习技术的发展,深度神经网络能够捕捉到更多且更加复杂的图像特征,这使得图像标注算法的性能也随之受益。
2024-10-29 19:42:26 1001
原创 传知代码-构建多Agent系统
特点:分布式:多Agent系统由多个独立的Agent组成,这些Agent分布在不同的位置,可以并行处理问题。自主性:每个Agent具有自己的决策能力和目标,能够在没有中央控制的情况下独立操作。协同性:Agent之间通过交流与合作,共同完成任务。多样性:多Agent系统中的Agent可能具有不同的能力、知识和观点,这增加了系统的多样性。适应性:多Agent系统能够通过Agent之间的相互作用来适应环境的变化。优势:并行处理能力:多Agent系统能够并行处理多个任务,显著提高处理速度和效率。
2024-10-28 10:08:24 771
原创 传知代码-ChatGPT多模态命名实体识别
我们在两个公共 MNER 数据集上进行了实验:Twitter-2015和 Twitter-2017。这两个数据集都是从Twitter平台上收集的,包含了文本和图像的配对信息,主要用于研究在社交媒体短文本场景下的多模态命名实体识别和情感分析等任务。推文中的文本部分被手动标注了命名实体,并使用BIO2(Beginning- Inside-Outside)标注方案对命名实体进行分类。实体类别包括人物(Person)、组织(Organization)、地点(Location)等。
2024-10-24 19:22:09 782
原创 传知代码-字里行间的背叛:博文出卖了你
MABSA 任务可以表述如下:给定一组多模态样本SX1X2X∣S∣SX1X2...X∣S∣,其中∣S∣|S|∣S∣表示样本的数量。对于每个样本,给定一个图像V∈R3×H×WV∈R3×H×W,其中 3、H 和 W 分别表示图像的通道数、高度和宽度,以及一个包含NNN个词的文本内容Tw1w2wNTw1w2...wN,其中包含一个长度为MMM的目标方面子序列Aw1。
2024-10-21 20:22:14 785
原创 传知代码-Robust多模态模型的开发
1. 多模态情感计算数据集:CMU-MOSI数据集是MSA研究中流行的基准数据集。该数据集是YouTube独白的集合,演讲者在其中表达他们对电影等主题的看法。MOSI共有93个视频,跨越89个远距离扬声器,包含2198个主观话语视频片段。这些话语被手动注释为[-3,3]之间的连续意见评分,其中-3/+3表示强烈的消极/积极情绪;CMU-MOSEI数据集是对MOSI的改进,具有更多的话语数量,样本,扬声器和主题的更大多样性。
2024-10-19 22:57:41 678
原创 传知代码-即插即用的3D神经元注意算法!
这篇文章,我讲解并复现了一篇经典有效的注意力算法 – SimAM,并将他应用在多模态情感计算和抑郁症检测任务中,此外,它还可以应用在多种任务中,比如计算机视觉,NLP等等原创部分为将该算法应用在了情感计算和抑郁症数据集以实现抑郁症检测任务,以及在图像分类(COCO,CIFAR10),SIMS数据集和SIMV2多种数据集上进行实验。1. 计算机视觉数据集:COCO 数据集是一个广泛用于计算机视觉任务的大型数据集,特别是物体检测、分割和图像标注。
2024-10-16 20:34:04 837
原创 传知代码-消灭蚊子大作战!
本文介绍了一种使用深度学习方法进行蚊子种类分类的基本框架。公共卫生与疾病控制:某些蚊子种类是传播疾病(如疟疾、登革热、寨卡病毒等)的主要媒介。通过准确识别蚊子种类,可以帮助公共卫生部门进行疾病监测与控制,采取针对性的防控措施。生态研究:蚊子在生态系统中扮演重要角色。不同种类的蚊子在生态平衡中有不同的作用。了解它们的分布和种类可以为生态研究提供重要数据,帮助分析生态系统的健康状况。农业影响:某些蚊子种类会对农业造成影响,比如通过传播植物病害或影响授粉。
2024-10-15 19:18:16 552
原创 传知代码-记忆注意力用于多模态情感计算!
本文在提出了两个新的模块,文本增强和记忆模块,应用在多模态情感计算中;这篇文章对两个模块进行讲解和手把手复现教学,解决当下热门的多模态情感计算问题,并展示在MOSI和MOSEI两个数据集上的效果它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。该数据集分为三个部分,训练集(1,284段)、验证集(229段)和测试集(686段)。它类似于CMU-MOSI,但规模更大。
2024-10-11 19:39:35 825
原创 传知代码-自动车牌识别检测系统(论文复现)
使用yolov8进行车牌检测(训练+测试+演示+部署)YOLO V8一种用于实时检测飞行物体的通用模型,可用于迁移学习和进一步研究,以及一种改进的模型,可实现飞行物体检测的最新结果。我作者通过在包含40个不同类别飞行物体的数据集上训练我们的第一个(广义)模型来实现这一点,迫使模型提取抽象的特征表示。然后使用这些学习到的参数对更能代表“真实的世界”环境的数据集(即更高频率的遮挡、非常小的空间尺寸、旋转等)进行迁移学习。
2024-10-10 21:09:24 811
原创 传知代码-红外小目标检测(论文复现)
本文用python复现论文Infrared Small Target Detection Based on Facet Kernel and Random Walker中提出的红外小目标检测算法。原文连接该论文提出了一种针对红外图像中小目标检测的算法。在红外小目标检测方面优于其之前的所有传统方法并且为后续传统的红外小目标检测算法打下了良好的基础。该方法作为非深度学习方法,基于滤波与图论的思想来对红外小目标进行检测。所以其对算力几乎没有任何要求,且性能也足够优秀。
2024-10-06 22:10:53 940
原创 传知代码-一键找出图像中物体的角点(论文复现)
本文复现论文A COMBINED CORNER AND EDGE DETECTOR中提出的图像中的物体角点检测算法,也称Harris算法。原文连接该论文所提出的角点检测算法是计算机视觉领域的经典算法,至今仍在计算机视觉领域有着广泛的应用。该方法对算力几乎没有任何要求,依据图像邻域内灰度值的分布特点来对图像中各区域的角点进行判断。不像深度学习需要依靠大量数据的训练且对数据集分布有依赖性,所以时至今日依然在工业界有着很高的应用价值。
2024-10-02 22:21:59 982
原创 传知代码-Noise2Noise图像去噪(论文复现)
本文复现论文Noise2Noise: Learning Image Restoration without Clean Data中提出的图像去噪方法,并使用最广泛应用的高斯噪声与泊松噪声来做实验。原文连接该论文证明了,对于同一张干净图片,如果分两次污染它所用的噪声同分布且0均值的情况下,那么用这一对噪声图像进行网络训练即noise2noise的训练方法就能达到与用干净-噪声图像对即noise2clean的训练方法接近的去噪效果。
2024-09-30 17:42:16 570
原创 传知代码-基于图神经网络的知识追踪方法(论文复现)
论文链接提出了一种基于图神经网络的知识追踪方法,称为基于图的知识追踪(GKT)。将知识结构构建为图,其中节点对应于概念,边对应于它们之间的关系,将知识追踪任务构建为图神经网络中的时间序列节点级分类问题。在两个开放数据集上的实证验证表明,方法可以更好地预测学生的表现,并且该模型比先前的方法具有更可解释的预测。贡献如下:(1)展示了知识追踪可以重新构想为图神经网络的应用。(2)为了实现需要输入模型的图结构,在许多情况下并不明确的情况下,我们提出了各种方法,并使用实证验证进行了比较。
2024-09-28 21:48:20 927
原创 传知代码-轻量注意力网络实现苹果叶片识别
该系统基于EfficientNet与多头自注意力机制,构建了一个高效、精准的苹果叶片识别模型,能够对不同种类的苹果叶片进行准确分类。通过结合EfficientNet的强大特征提取能力和多头注意力机制的全局信息捕捉能力,系统在处理复杂背景和不同光照条件下的叶片图像时表现出色。此外,系统还集成了一个可视化平台,用户可以直观地查看叶片分类结果,并通过简便的界面上传图像进行预测。这使得该系统在实际农业生产中具有重要的应用价值,如病害监测和农业自动化管理等。
2024-09-27 19:39:40 1067
原创 传知代码-基于图像的虚拟试衣领域新突破(论文复现)
本文将解读并且复现2024年CVPR的一篇图像领域的一篇论文该论文能够高效生成高质量的试穿效果,无论是人体还是服装图像,其生成结果在逼真度和可控性方面均优于其他方法,标志着虚拟试穿领域的一个显著突破。电商应用:OOTDiffusion能够实现逼真且可控的虚拟试穿,大幅提升在线购物体验。消费者可以通过虚拟试穿功能,直观地了解服装的穿着效果,从而减少退货率,提升购买决策的信心。研究者启发:该研究展示了将预训练扩散模型应用于虚拟试穿领域的创新方法,尤其是无需冗余变形处理的精准对齐技术。
2024-09-26 19:35:52 957
原创 传知代码-从零开始构建你的第一个神经网络
接下来,我们将定义一个简单的卷积神经网络。该网络将包含两个卷积层(每层后接池化层)和两个全连接层。# 定义卷积神经网络self.conv1 = nn.Conv2d(3, 16, 3, padding=1) #彩色图片输入通道为3:RGB;输出为16x = x.view(-1, 32 * 16 * 16) #展平操作成为1维return x# 实例化模型上述网络结构中表明彩色图片输入通道为3:RGB;输出为16,这里16可以自己定义,但是要与下一卷积层的输入通道数相同。16后面的3为卷积核大小即为。
2024-09-23 19:46:58 1100
原创 传知代码-基于多尺度动态卷积的图像分类
在计算机视觉领域,图像分类是非常重要的任务之一。近年来,深度学习的兴起极大提升了图像分类的精度和效率。本文将介绍一种基于动态卷积网络多尺度特征融合网络(Multi-scale Feature Fusion Networks)和自适应损失函数(Adaptive Loss Functions)的智能图像分类模型,采用了PyTorch框架进行实现,并通过PyQt构建了简洁的用户图像分类界面。该模型能够处理多分类任务,并且提供了良好的可扩展性和轻量化设计,使其适用于多种不同的图像分类场景。
2024-09-22 21:26:37 1300
原创 传知代码-多示例AI模型实现病理图像分类
本文将基于多示例深度学习EPLA模型实现对乳腺癌数据集的分类。EPLA模型是处理组织病理学图像的经典之作。EPLA模型是基于多示例学习来进行了,那么多示例学习模型对处理病理学图像具有天然的优势,因为多示例学习(Multiple Instance Learning 简称 MIL)是由监督型学习算法演变出的一种方法,定义“包”为多个示例的集合,具有广泛的应用。学习者不是接收一组单独标记的实例,而是接收一组带标签的包,每个包拥有多个实例。
2024-09-20 19:16:41 1187
原创 传知代码-KAN卷积:医学图像分割新前沿
在本文中深入探讨KAN卷积在医学图像分割领域的创新应用,特别是通过引入(Tok Kan)这一突破性设计,将深度学习中的图像分割技术推向了新的高度。KAN作为一种能够替代传统MLP(多层感知机)的网络结构,以其独特的优势在多个领域展现出强大的潜力。而在医学图像分割这一复杂且关键的领域,KAN卷积更是凭借其高效处理图像特征的能力,成为了研究的热点。本文将U-Net结构中的卷积部分替换成了KAN卷积,将MLP部分用KANLinear取代,同时融入了类似Vision Transformer(VIT)的移位思想。
2024-09-17 23:01:57 1645
原创 传知代码-融合经典与创新的图像分类新途径
在当前的深度学习领域,构建兼具高性能与灵活性的卷积神经网络(CNN)已成为计算机视觉研究的核心课题。本文介绍了一种全新的卷积神经网络架构,该网络巧妙地结合了ResNet的残差连接、Inception的多尺度卷积模块,以及多头自注意力机制,不仅增强了特征表达能力,还显著提升了模型在不同任务中的适应性。特别值得一提的是,本文还首次引入了一个全新的图像数据集,该数据集目前尚未被其他研究团队使用。这为研究人员和开发者提供了一个前所未有的机会,能够在一个未曾开垦的领域中探索和验证新算法的有效性。
2024-09-14 17:15:21 764
原创 传知代码-机器情绪及抑郁症算法(四)!(论文复现)
这篇文章,我开始介绍第四篇情感计算经典论文模型,他是ICRL 2019的一篇多模态情感计算的论文 “LEARNING FACTORIZED MULTIMODAL REPRESENTATIONS”,其中提出的模型是MFM;此外,原创部分为加入了抑郁症数据集以实现抑郁症检测任务,以及在SIMS数据集和SIMV2数据集上进行实验。CMU-MOSI数据集是MSA研究中流行的基准数据集。该数据集是YouTube独白的集合,演讲者在其中表达他们对电影等主题的看法。
2024-09-09 19:43:38 996
原创 传知代码-TETFN情感计算的实践复现(论文复现)
本文讲解并复现了2024年一篇多模态情感计算的文章 “TETFN: A text enhanced transformer fusion network for multimodal sentiment analysis”,这篇论文利用三种模态之间进行交互,并对文本模态进行增强,以更准确的提取非文本模态的情感信息。它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。
2024-09-08 21:15:18 1284
原创 传知代码-遵循人类指令的高质量图像修复(论文复现)
为了更好地理解《High-Quality Image Restoration Following Human Instructions》的贡献,让我们首先了解图像恢复问题的背景。图像恢复涉及从降级图像中恢复出高质量的清晰图像,这是一个复杂的问题,因为同一张图像可能有多种不同的恢复方式。噪声、模糊、雨滴等降级效果常常是图像中不可避免的问题,尤其在低光等复杂环境条件下。传统的方法通常针对特定的降级类型设计,而深度学习方法则在多任务学习中表现出色,但仍然面临泛化到多种降级的挑战。
2024-09-05 19:06:17 1071
原创 传知代码-主动学习实现领域自适应语义分割(论文复现)
本文讲解并复现一篇CVPR论文 “Towards Fewer Annotations: Active Learning via Region Impurity and Prediction Uncertainty for Domain Adaptive Semantic Segmentation”,该论文基于主动学习实现像素级分割–语义分割,并实现迁移学习–将两个虚拟生成的数据集进行训练,并迁移到真实世界数据集GTAV:GTAV包含24966张图像,它与cityscape数据集共享19个类;下载链接;
2024-09-04 19:14:37 966
原创 传知代码-让机器感受你的情绪!(论文复现)
这篇文章我复现了一篇经典情感计算的论文 ‘TensorFormer: ATensor-Based Multimodal Transformer for Multimodal Sentiment Analysis and Depression Detection’,并加入其他模块进行了优化,以及不同的特征提取方法,获得了不错的效果;CMU-MOSI数据集是MSA研究中流行的基准数据集。该数据集是YouTube独白的集合,演讲者在其中表达他们对电影等主题的看法。
2024-09-03 19:11:00 828
原创 传知代码-MSA+抑郁症模型总结(一)(论文复现)
本篇文章开始,我计划使用连载的形式对经典的情感计算模型进行讲解、对比和复现,并开发不同数据集进行应用。并逐步实现集成,以方便各位读者和学者更深度地了解Multimodal Sentiment Analysis (MSA)以及他的研究重点和方向,为该领域的初学者尽量指明学习方向方法;首先第一篇,我将介绍AAAI 2021的一篇经典MSA论文中的模型–Self_MM它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。
2024-09-02 16:25:45 997
原创 传知代码-MSA+抑郁症模型总结(三)(论文复现)
这篇文章,我开始介绍第三篇情感计算经典论文模型,他是ACMMM 2020的一篇多模态情感计算的论文 “MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis”,其中提出的模型是MISA;此外,原创部分为加入了抑郁症数据集以实现抑郁症检测任务,以及在SIMS数据集和SIMV2数据集上进行实验;值得注意的是,我们还加入了幽默检测的任务;
2024-08-30 20:32:32 1126
原创 传知代码-多功能数据增强图像生成器
通过本文的代码实现和详细解读,我们成功打造了一个多功能的图像数据增强工具。无论您是深度学习新手还是资深研究者,这个工具都可以帮助您快速扩充数据集,提高模型的训练效果。欢迎大家尝试使用并提出宝贵意见!
2024-08-27 18:46:26 852
原创 传知代码-交通路口智能监测平台实现(论文复现)
交通要道的路口上人车穿行,特别是上下班早高峰,且时常发生交通事故。因此对交通路口的车流量和人流量的监测必不可少。这是pycharm打开的工程文件,其中主要有存在权重文件、目标类别的文件夹,YOLOX模型的文件夹还有打包会输出的output文件夹,exe文件存在在这里面。这里使用的检测模型为YOLOX模型,模型权重为训练VOC数据集得来,其中包括了二十个类别,但我们主要针对地面交通路口进行监测,选择了最关键的三个监测要素作为监测目标,分别为人、汽车和自行车。
2024-08-23 18:32:26 718
原创 传知代码-自监督行为识别-时空线索解耦(论文复现)
SCD-NET()引入了一种新的对比学习框架,即时空线索解耦网络(SCD-Net)。具体来说,将解耦模块与特征提取器相结合,分别从空间和时间域获得明确的线索。对于SCD-Net的训练,构建了一个全局锚点,鼓励锚点与提取的线索相互作用。此外,本文提出了一种具有结构约束的新的掩码策略,以加强上下文关联,利用掩码图像建模到所提出的SCD-Net。
2024-08-22 18:37:04 805
原创 传知代码-自动化细胞核分割与特征分析(论文复现)
HoVer-Net是一种精心设计的多分支深度学习网络架构,专为处理复杂的多组织显微图像中的细胞核实例分割与精确分类任务而开发。该网络通过创新的策略,不仅有效解决了细胞核在密集聚集区域难以准确区分的问题,还实现了对每个独立细胞核类型的细致分类。此外,HoVer-Net还引入了专门的上采样分支,这一设计旨在对每个成功分割出的细胞核实例进行进一步的核类型分类。这一分支利用高级语义信息,结合精心设计的分类策略,能够准确判断每个细胞核的所属类型,为医学研究提供了宝贵的细胞水平信息。
2024-08-21 19:37:04 830 1
原创 传知代码-【CLIP】文本也能和图像配对
模态:数据的一种形式,如图像、文本、声音、点云等。多模态学习,就是利用模型同时处理多个模态数据,有助于提高模型的准确性和泛化能力。在自动驾驶场景中,为了准确感知周围交通环境,在车载系统中,通常装载多种传感器,包括相机和激光雷达。相机影像能够提供丰富的纹理信息,但其中包含的景物深度信息可能会有所损失;利用激光雷达生成的点云,能够为周边环境提供精确的3D信息,但是点云本身具有较大的稀疏性。同时使用上述两种模态作为输入,能够使模型更好的感知周边环境。CLIP的基本原理是通过对比学习让模型区分正样本和负样本。
2024-08-16 18:23:36 276
原创 传知代码-CENet及多模态情感计算实战(论文复现)
本文对 “Cross-Modal Enhancement Network for Multimodal Sentiment Analysis” 论文进行讲解和手把手复现教学,解决当下热门的多模态情感计算问题,并展示在MOSI和MOSEI两个数据集上的效果它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。该数据集分为三个部分,训练集(1,284段)、验证集(229段)和测试集(686段)。
2024-08-15 20:02:41 965
原创 传知代码-MSA+抑郁症模型总结(二)(论文复现)
这篇文章,我将介绍第二篇情感计算经典论文模型,他是EMNLP 2021的一篇经典MSA论文中的模型–Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis(MMIM)此外,原创部分为加入了抑郁症数据集以实现抑郁症检测任务,以及SIMS数据集和SIMV2数据集。它是一个多模态数据集,包括文本、视觉和声学模态。
2024-08-12 20:10:21 1265 1
原创 传知代码-关系图推理网络(论文复现)
基于关系有向图(r-digraph)的知识图推理方法,旨在解决传统基于关系路径推理方法的局限性。r-digraph由重叠的关系路径组成,用于捕获知识图谱中的局部证据。相比于单一路径,r-digraph更为复杂,因此需要有效的构建和学习方法。为了应对这一挑战,作者提出了一种图神经网络的变体,称为RED-GNN。RED-GNN利用动态规划对具有共享边的多个r-digraph进行递归编码,以有效地捕获图中的信息。
2024-08-08 12:05:02 1185
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人