自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

EterNity_TiMe_的计算机学习之路

天天天天开开心心

  • 博客(178)
  • 收藏
  • 关注

原创 【Linux网络】网络基础:传输层UDP/TCP协议(一)

传输层协议,特别是用户数据报协议(UDP)和传输控制协议(TCP),是网络通信中最为基础也最为重要的部分。它们不仅决定了数据的传输方式,还影响着数据的可靠性、顺序性和实时性。对于想要深入了解互联网运行机制、掌握网络通信技术的朋友们来说,学习UDP/TCP协议无疑是必经之路。

2024-12-10 20:45:57 91

原创 【论文复现】无监督目标检测最新CVPR解读

与传统全监督学习不同的是,无监督学习要求在数据完全无标记的情况下从数据集中学习到一定知识。常见的方法包括预训练、启发式算法等。传统的DBSCAN直接对点云进行聚类,从而拟合粗糙的边界框。

2024-12-10 09:28:10 467 1

原创 【论文复现】联合模态融合+图对比学习

多模态情感识别旨在识别多种模态中每个话语的情感,这在人机交互应用中越来越受到关注。当前基于图的方法未能同时描述对话中的全局上下文特征和局部多样的单模态特征。此外,随着图层数量的增加,它们很容易陷入过度平滑的情况。

2024-12-09 00:54:27 559 4

原创 【论文复现】分割万物-SAM

Segment Anything(SAM)是 Meta/FAIR 提出的以 data-centric AI 理念搭建的机器视觉分割模型,堪称图像分割领域的 GPT!SAM 在 1100w 张图片上镜像训练,拥有分割万物的能力。无论是庞然大物、还是精细入微,都可以准确区分。

2024-12-07 11:55:30 973 14

原创 【论文复现】YOLOv7论文讲解

YOLO v7论文(YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors)被收录于计算机视觉顶会CVPR2023,这也是时隔 6 年,YOLOv 系列再登顶会 CVPR!我们知道CVPR是计算机视觉方面的三大顶级会议之一,上一次被收录还是YOLO v2,这也可以看到YOLO v7很强大,也被很多人所认可。

2024-12-06 00:54:58 628 12

原创 【论文复现】用二维图像渲染3D场景视频

**NeRF(Neural Radiance Fields)**是一种神经辐射场,用于将图像转换为3D场景表示。然而,在不同分辨率的训练或测试图像观察场景内容时,NeRF的渲染过程可能会产生过度模糊或伪影的图像。对于传统NeRF来说,使用多条光线对每个像素进行超采样的渲染方案是不实际的,因为渲染每条光线需要对MLP进行数百次查询。

2024-12-05 06:00:00 851 9

原创 【Linux网络】网络基础:HTTP协议

在当今这个数字化迅猛发展的时代,互联网已经成为连接全球信息与服务的桥梁。而在这浩瀚的网络海洋中,HTTP(超文本传输协议)作为互联网上应用最广泛的一种协议,扮演着举足轻重的角色。无论是我们日常浏览的网页、观看的在线视频、还是进行的电子商务交易,背后都离不开HTTP协议的默默支撑。

2024-12-05 01:42:36 2094 73

原创 【论文复现】隐式神经网络实现低光照图像增强

低光图像增强是图像处理领域的一个重要研究方向,旨在改善在低照度条件下拍摄的图像质量。低光条件下的图像往往具有低对比度、噪点增加和细节丢失等问题。低光图像增强方法通过调整图像的亮度、对比度、色彩平衡等方面来提高图像的质量和视觉感知效果。

2024-12-04 18:32:35 1387

原创 【论文复现】BEVFormer

BEVFormer,用于学习具有时空Transformer的统一BEV表征,以支持多个自动驾驶感知任务。BEVFormer利用空间和时间信息,通过预定的网格状BEV查询向量与空间和时间域交互。

2024-12-04 09:49:08 647

原创 【论文复现】事件因果提取

事件因果提取(ECE)旨在从纯文本中推导出因果事件对。在这里,一个因果事件对包含一个因果组件和一个结果组件,每个组件表示具有特定事件类型及其事件参数和事件角色的事件。给定一段文本,事件因果提取系统需要预测出其中所有的因果事件对

2024-12-03 09:36:04 1037 8

原创 【论文复现】DETR[端到端目标检测]

 在目标检测需要许多手工设计的组件,例如非极大值抑制(NMS),基于人工经验生成的先验框(Anchor)等。DETR这篇文章通过将目标检测作为一个直接的集合预测问题,减少了人工设计组件的知识,简化了目标检测的流程。给定一组固定的可学习的目标查询,DETR推理目标和全局图像的上下文关系,由于DETR没有先验框的约束,因此对于较大的物体预测性能会更好。

2024-12-02 02:02:25 1078 8

原创 【论文复现】StreamPETR

相比于传统的时空交互网络,StreamPETR引入了对象查询的概念,使得运动补偿更加方便。同时,该方法还采用了混合注意力层,以实现更高效的重复预测去除和特征聚合。此外,该方法还设计了一个灵活的记忆队列,可以根据需要自由控制最大内存大小和保存间隔。

2024-12-01 13:48:50 1070 6

原创 【论文复现】动态键值记忆网络解决知识追踪

在DKVMN模型中,不同于MANN将所有的信息存储在单一矩阵中,DKVMN使用键值对来存储信息。具体地,模型将概念和对应的掌握水平存储在键矩阵和值矩阵中。在每个时间戳,DKVMN接收一个练习标签作为输入,并输出学生对该练习的正确答案的概率。随后,模型使用这个练习和响应的组合来更新值矩阵中相应概念的掌握水平。通过这种方式,DKVMN能够更有效地追踪学生对不同概念的掌握情况,从而提高了KT的效果。

2024-12-01 06:00:00 919 3

原创 【论文复现】从零开始搭建图像去雾神经网络

基于集成学习的双分支非均质去雾网络由两个子网络组成,即迁移学习子网和数据拟合子网。每个子网有着特定的目的:迁移学习子网利用预先训练的权重从输入图像中提取鲁棒全局表示;数据拟合子网对当前数据进行处理。融合层采用这两个子网络的级联特征图,并输出无雾图像。

2024-12-01 01:21:25 1867

原创 【论文复现】自监督行为识别-时空线索解耦

为了解决自监督在面临的三个挑战,该文分别提出三种方法分别应对。首先在时空信息混淆的问题上,作者提出双向接口编码器;数据增强方面,分别在时间、空间上分设置不同的数据增强策略;方法的可迁移性方面设置了跨越对比损失,详细架构可见下文。

2024-11-30 23:20:07 1073

原创 【论文复现】基于BERT的语义分析实现

文本分类是指给定文本a,将文本分类为n个类别中的一个或多个。常见的应用包括文本话题分类,情感分类,具体的分类方向有有二分类,多分类和多标签分类。文本分类可以采用传统机器学习方法(贝叶斯,svm等)和深度学习方法(fastText,TextCNN等)实现。

2024-11-30 23:06:31 958

原创 【论文复现】WRN: 宽度残差网络

为了解决深度神经网络梯度消失的问题,深度残差网络(Residual Network[2])被提出。然而,仅为了提高千分之一的准确率,也要将网络的层数翻倍,这使得网络的训练变得非常缓慢。

2024-11-29 20:00:00 787 9

原创 【论文复现】ViT:对图片进行分类

Transformer架构虽然已经成为自然语言处理任务的标准,但是它在计算机视觉的应用仍然有限,先前的视觉任务中,注意力大多与卷积结合使用。ViT模型的出现,证明了对CNN的依赖是不必要的,直接应用于图像补丁序列的纯Transformer架构可以在图像分类任务中表现良好。

2024-11-29 17:08:40 1096 1

原创 【论文复现】LeNet-5

LeNet是最早的卷积神经网络之一。1998年,Yann LeCun第一次将LeNet卷积神经网络应用到图像分类上,在手写数字识别任务中取得了巨大成功。LeNet通过连续使用卷积和池化层的组合提取图像特征。

2024-11-29 15:52:21 952 1

原创 【论文复现】实时开放词汇目标检测

YOLO-World是由腾讯人工智能实验室于2024年1月31日发布的实时开放词汇目标检测模型,能够在实时环境中跨越开放词汇表识别对象,无需先前的训练。传统的目标检测模型如YOLO由于依赖于预定义和训练过的目标类别(闭集检测),它在开放场景中的适用性受到了限制,例如,使用COCO数据集训练的模型仅能识别80个不同的类别。为了应对固定词汇检测器的限制,开放词汇目标检测(OVD)的概念应运而生,旨在识别超出预先建立类别范围之外的对象

2024-11-29 15:38:04 847

原创 【论文复现】LoRA:大模型的低阶自适用

总的来说,LoRA提出了一种创新的方法来解决大型语言模型在特定任务上的适应问题,同时保持了模型的性能,降低了资源消耗,并提高了操作效率。这对于需要在资源受限的环境中部署和使用大型模型的应用场景尤为重要

2024-11-29 10:05:26 999 2

原创 【论文复现】Modnet 人像抠图

人像抠图(Portrait matting)旨在预测一个精确的 alpha 抠图,可以用于提取给定图像或视频中的人物。

2024-11-29 01:23:30 1079 5

原创 【论文复现】YOLOv5复现

YOLOv5是Ultralytics公司在2020年6月发布的一款开源目标检测模型,其特点在于轻量化设计、易用性高以及出色的性能表现。该模型能够在各种硬件平台上实现速度与性能的良好平衡,

2024-11-28 22:42:35 775 2

原创 【论文复现】图神经网络长对话理解

情感识别是对话理解中的一个核心挑战,特别是在处理包含语言、声音和面部表情等多模态数据的情况下。为应对这一挑战,一种常见的做法是利用全局和局部上下文信息来为每个对话中的句子(或话语)预测情感标签。

2024-11-28 22:31:46 603

原创 【论文复现】BERT论文解读及情感分类实战

深度双向预训练表征的构建:BERT突破了以往语言表征模型的局限,通过同时考虑所有层级中的左侧与右侧上下文,实现了深度双向表征的预训练。这一特性使BERT能够在预训练阶段捕获更为丰富的语言信息。

2024-11-28 16:33:03 764 1

原创 【论文复现】试试号称最好的7B模型

Mistral 7B 是一款新型大语言模型,拥有惊人的7.3万亿参数,其性能甚至超越了拥有13万亿参数的Liama2。

2024-11-28 16:20:43 1081

原创 【论文复现】农作物病害叶子图像分割

图像分割是一个过程,它涉及将一幅图像分解为多个蕴含语义信息的部分,这些部分被称为“分割区域”,并在计算机视觉领域中占据重要地位。

2024-11-28 06:00:00 666 4

原创 【论文复现】遵循人类指令的高质量图像修复

图像恢复是计算机视觉领域内一个长期受到重视的问题,原因在于图像常因噪声、模糊、雨滴等多种因素而受损,进而影响其在各类应用中的效能。尽管传统的图像恢复方法在特定任务上表现不俗,但它们对于多样化的图像降级情况往往泛化能力不足。随着深度学习技术的蓬勃发展,基于神经网络的图像恢复方法取得了显著成就,但在应对复杂多变的图像降级问题上仍面临挑战。

2024-11-28 01:12:55 793

原创 【论文复现】用于图像识别的判别图正则化技术

宽度学习系统(BLS)作为一种深度学习的新颖替代方案应运而生。BLS架构的核心在于,它首先将输入数据随机映射到一系列特征空间中,这些空间由特征节点构成,随后将特征节点的输出广泛扩展至增强节点。通过这一过程,可以解析地确定网络的输出权重。

2024-11-28 01:05:32 894

原创 【论文复现】时序预测:多头注意力+宽度学习

尽管深度神经网络通过残差连接保障了信息的完整性,但其训练过程却相对漫长。相比之下,宽度学习模型通过级联结构实现了信息的重用,确保了原始信息的无损传递。它构建了一个既简单又专业的网络架构,无需繁琐的重新训练过程,同时兼具了大多数机器学习模型的快速求解能力和深度学习模型的强大拟合能力。

2024-11-27 14:00:00 1211 6

原创 【论文复现】让机器来洞察他的内心!

随着网络上用户生成的视频数量呈爆炸式增长,多模态讽刺识别近期成为了备受瞩目的研究领域。讽刺往往借助多种语言及非语言线索来传达,比如语调的变化、单词的过分凸显、音节的延长或是严肃的表情。近期,尽管在文本数据上的讽刺检测研究已取得显著进步,但仍面临两大核心难题:

2024-11-27 09:34:39 739 1

原创 【论文复现】命名实体识别

命名实体识别(NER)是自然语言处理领域的一个核心任务,它的目标是从文本数据中找出并分类出各种命名实体,这些实体往往指的是特定的名词,比如人名、地理位置名称以及机构或组织名称等。

2024-11-27 09:29:00 784

原创 【论文复现】揭秘AI如何揪出图片中的“李鬼“

在当下的数字洪流中,各类图像信息如潮水般涌向我们,其中不乏暗藏玄机的被篡改文字或图像,它们悄无声息地影响着我们的判断,有时甚至会引发严重的后果。但幸运的是,随着人工智能(AI)的飞跃进步,我们手中已握有一把利剑,能够揭露这些图像中的“伪装者”。

2024-11-27 06:00:00 854

原创 【论文复现】革新人脸图片智能修复

这一机制的引入,使得人脸恢复不再依赖于大规模的训练数据集,而是通过学习到的离散码本来预测人脸特征,实现了真正意义上的"盲"恢复。这种方法的创新之处在于,它将复杂的人脸恢复问题转化为了一个更为直接的码预测任务,极大地提高了算法的效率和准确性。

2024-11-27 00:34:41 616

原创 【论文复现】Robust多模态模型的开发

近年来,随着网络视频的大量涌现,各种多模态任务日益备受关注。尽管取得了显著的进展,但在迈向稳健多模态交互的道路上仍面临两大挑战:1)在未对齐多模态数据中建模跨模态交互时效率低下;2)在现实环境中通常会发生的随机模态特征缺失的脆弱性。

2024-11-27 00:30:50 810

原创 【论文复现】融入模糊规则的宽度神经网络结构

今天来给大家讲解一篇发表在中科院一区顶级期刊上《IEEE Transactions on Cybernetics》的有关于目前人工智能计算机视觉新方向(宽度学习)的文章。作者在这篇文章中基于宽度神经网络提出了一种改进的新模型,融入了模糊规则来提高模型对特殊特征的分辨能力。由于模糊规则的复杂性,本博客用了比较多的博客来讲述,如果大家觉得太难,可以直接下载附件代码先跑起来,从代码入手再回来看数学公式会更直接一点。

2024-11-26 21:32:36 718 2

原创 【论文复现】半监督学习与数据增强

半监督学习(Semi-supervised Learning)是一种机器学习方法,它将少量的标注数据(带有标签的数据)和大量的未标注数据(不带标签的数据)结合起来训练模型。在许多实际应用中,标注数据获取成本高且困难,而未标注数据通常较为丰富和容易获取。因此,半监督学习方法被引入并被用于利用未标注数据来提高模型的性能和泛化能力。

2024-11-26 13:42:09 1185 2

原创 【论文复现】偏标记学习+图像分类

随着深度神经网络的发展,机器学习任务对标注数据的需求不断增加。然而,大量的标注数据十分依赖人力资源与标注者的专业知识。弱监督学习可以有效缓解这一问题,因其不需要完全且准确的标注数据。该论文关注一个重要的弱监督学习问题——偏标记学习(Partial Label Learning),其中每个训练实例与一组候选标签相关联,但仅有一个标签是真实的。

2024-11-26 09:44:49 729 3

原创 【论文复现】YOLOv1代码复现

YOLO系列都包括:输入端、Backbone、Neck,Head

2024-11-26 06:00:00 635 3

原创 【论文复现】上下位关系自动检测方法

在自然语言处理中,**上下位关系**(Is-a Relationship)表示的是概念(又称术语)之间的语义包含关系。其中,**上位词**(Hypernym)表示的是**下位词**(Hyponym)的抽象化和一般化,而下位词则是对上位词的具象化和特殊化

2024-11-26 00:34:21 997

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除