文献阅读_yc_23的博客-CSDN博客

文献阅读

关注

文章平均质量分 96

关注数：文章数：19 文章阅读量：29600 文章收藏量：462

作者: yc_23

这个作者很懒，什么都没留下…

展开

专栏收录文章

KAG：通过知识增强生成提升专业领域的大型语言模型（二）

本周继续学习KAG的实验结果部分、完成对KAG的安装部署，还有对KAG代码框架的理解。首先，介绍了KAG框架在知识密集型问答任务中的应用和性能评估。KAG通过多步检索、知识对齐和逻辑形式求解等策略，提升了问答系统在多跳问答数据集上的表现。消融研究进一步探讨了知识图谱索引和推理与检索策略对性能的影响，证明了知识对齐和逻辑形式求解器的有效性。然后，完成了包括KAG可视化界面和KAG开发者模式的安装部署，有Docker部署服务、构建和管理私域知识库以及进行推理问答的步骤。详细了解了KAG代码框架和实现过程。

原创 2025-04-27 12:53:05 · 1910 阅读 · 0 评论
KAG：通过知识增强生成提升专业领域的大型语言模型（一）

本周阅读的论文题目是《KAG: Boosting LLMs in Professional Domains via Knowledge Augmented Generation》（《KAG：通过知识增强生成提升专业领域的大型语言模型》）。最近开发的检索增强生成（RAG）技术使得构建特定领域的应用变得高效。然而，它也存在局限性，包括向量相似性与知识推理的相关性差距，以及对知识逻辑（如数值、时间关系、专家规则等）的不敏感，这些都阻碍了专业知识服务的有效性。

原创 2025-04-20 13:41:26 · 1622 阅读 · 0 评论
RAG文献阅读——用于知识密集型自然语言处理任务的检索增强生成

本周阅读的论文题目是《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》（《用于知识密集型自然语言处理任务的检索增强生成》）。大型预训练语言模型已被证明能够在其参数中存储事实知识，并在对下游 NLP 任务进行微调时取得最先进的成果。然而，它们访问和精确操作知识的能力仍然有限，因此在知识密集型任务上，它们的性能落后于特定架构。此外，为它们的决策提供证据和更新其世界知识仍然是开放的研究问题。

原创 2025-04-13 12:30:14 · 1330 阅读 · 0 评论
第一人称动作识别文献阅读——LaViLa：从大型语言模型中学习视频表征信息

本周阅读的论文题目是《》（《从大型语言模型中学习视频表征信息》）。本文中提出了LaViLa，这是一种通过利用大型语言模型来学习视频-语言表示的新方法。LaViLa将预训练的LLMs重新用于视觉输入，并对其进行微调以创建自动视频叙述者。与传统的视频文本对齐方法相比，自动生成的叙述具有许多优点，包括对长视频的密集覆盖、视觉信息和文本的更好时间同步以及文本的更高多样性。

原创 2025-04-06 13:15:00 · 1295 阅读 · 0 评论
第一人称动作识别文献阅读——EPIC-Fusion：用于以自我为中心动作识别的视听时序绑定

本周阅读的论文题目是《EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition》（《EPIC-Fusion：用于以自我为中心动作识别的视听时序绑定》）。本文通过将多模态融合用于以自我为中心的动作识别，提出了一种新颖的多模态时间绑定网络（TBN）架构，即模态在时间偏移范围内的组合。使用三种模态RGB、Flow 和音频来训练该架构，并使用中级融合以及融合表示的稀疏时间采样。

原创 2025-03-30 13:15:00 · 1171 阅读 · 0 评论
第一人称动作识别文献阅读——LSTA：用于自我中心动作识别的长短期注意力机制

本周阅读的论文题目是《LSTA: Long Short-Term Attention for Egocentric Action Recognition》（《LSTA：用于自我中心动作识别的长短期注意力机制》）。以自我为中心的活动识别是视频分析中最具挑战性的任务之一，它需要精细地区分小物体及其操作。虽然一些方法基于强大的监督和注意力机制，但它们有些需要消耗大量标注，还有些没有考虑时空模式。

原创 2025-03-23 15:23:33 · 837 阅读 · 0 评论
第一人称动作识别文献阅读——注意力即一切：精准定位以物体为中心的注意力机制实现自中心活动识别

本周阅读的论文题目是《Attention is All We Need: Nailing Down Object-centric Attention for Egocentric Activity Recognition》（《注意力即一切：精准定位以物体为中心的注意力机制实现自中心活动识别》）。本文提出了一种用于以自我为中心的活动识别的端到端可训练的深度神经网络模型Ego-RNN。

原创 2025-03-16 15:25:43 · 1014 阅读 · 0 评论
人体骨架识别文献阅读——ST-TR：基于时空Transformer网络的骨架动作识别

本周阅读的论文题目是《Skeleton-based action recognition via spatial and temporal transformer networks》(《基于时空Transformer网络的骨架动作识别》)。在前几周中学习的ST-GCN以及基于ST-GCN做出改进的2s-AGCN和DGNN在骨骼图这类非欧几里数据上的空间和时间依赖性方面是有效的。但是依旧不能对3D骨骼中潜在信息的有效编码进行提取。

原创 2025-03-09 12:35:00 · 1757 阅读 · 0 评论
人体骨架识别文献阅读——DGNN：基于骨架的动作识别与有向图神经网络

本周阅读的论文题目是《Skeleton-Based Action Recognition with Directed Graph Neural Networks》(《基于骨架动作识别与有向图神经网络》)。本文中基于自然人体中关节和骨骼之间的运动学依赖关系，将骨骼数据表示为有向无环图，从而设计了一种新颖的有向图神经网络（DGNN），专门用于提取关节、骨骼及其关系的信息，并基于提取的特征进行预测。此外，为了更好地适应动作识别任务，根据训练过程使图的结构自适应，这带来了显著的改进。

原创 2025-03-02 12:23:09 · 1188 阅读 · 0 评论
人体骨架识别文献阅读——2s-AGCN：基于骨架动作识别的双流自适应图卷积网络

本周阅读的论文题目是《Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition》(《基于骨骼动作识别的双流自适应图卷积网络》)。在基于骨骼的动作识别中，将人体骨骼建模为时空图的图卷积网络ST-GCN取得了显著性能。然而，在ST-GCN等GCN方法中，图的拓扑结构是手动设置的，并且在所有层和输入样本中固定不变，这可能不适合层次化GCN和动作识别任务中的多样化样本。

原创 2025-02-23 12:23:29 · 1963 阅读 · 0 评论
人体骨架识别文献阅读——ST-GCN：基于骨骼动作识别的时空图卷积网络

本周阅读的论文题目是《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》(《基于骨骼动作识别的时空图卷积网络》)。本文中提出了一种动态骨骼新模型ST-GCN，它通过图卷积网络自动从数据中学习空间和时间模式，适用于不同关节数量和连接情况的数据集，克服了传统的骨骼建模依赖于手工制作的部件或遍历规则方法的局限性。

原创 2025-02-16 12:23:15 · 3948 阅读 · 1 评论
语义分割文献阅读——SETR：使用Transformer从序列到序列的角度重新思考语义分割

本周阅读的论文题目是《Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers》(《使用Transformer从序列到序列的角度重新思考语义分割》)。由于典型的语义分割FCN和编码器-解码器架构以多次下采样损失空间分辨率为代价来抽取局部/全局特征，而固定的网络层会使造成每一层的感受野是受限的，因此要获得更大范围的语义信息，理论上需要更大的感受野即更深的网络结构。

原创 2025-02-09 12:34:30 · 1350 阅读 · 0 评论
语义分割文献阅读-DeepLab v3+：基于空洞可分离卷积的语义图像分割编码器-解码器(1.20-1.26)

本周阅读的论文题目是《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》(《基于空洞可分离卷积的语义图像分割编码器-解码器》)。DeepLab v3+是DeepLab系列最后一个网络结构，也是基于空洞卷积和多尺度系列模型的集大成者。

原创 2025-01-26 12:44:00 · 1245 阅读 · 0 评论
语义分割文献阅读-SegNet：一种用于图像分割的深度卷积编码器-解码器架构（1.13-1.19）

本周阅读的论文题目是《SegNet：ADeepConvolutionalEncoder-DecoderArchitectureforImageSegmentation》(《SegNet：一种用于图像分割的深度卷积编码器-解码器架构》)。本文中提出了一种新颖实用的用于语义像素分割的深度全卷积神经网络架构-SegNet。SegNet由一个编码器网络、一个相应的解码器网络和一个像素分类层组成。编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同，去除了3个全连接层。

原创 2025-01-18 18:17:14 · 2288 阅读 · 0 评论
语义分割文献阅读-FCN：用于语义分割的全卷积网络(1.6-1.12)

本周阅读的论文题目是《Fully Convolutional Networks for Semantic Segmentation》(《用于语义分割的全卷积网络》)。本文中所提出的FCN是使用深度学习进行语义分割的开山之作，FCN可以进行端到端、像素到像素训练，通过接受任意大小的输入并能有效的推理和学习产生相应大小的输出。

原创 2025-01-12 12:23:02 · 1227 阅读 · 0 评论
目标检测文献阅读-DETR：使用Transformer进行端到端目标检测

本周阅读的论文题目是《End-to-End Object Detection with Transformers》(使用Transformer进行端到端目标检测)。

原创 2025-01-05 15:18:18 · 1495 阅读 · 0 评论
目标检测文献阅读-YOLO：统一的实时目标检测(12.23-12.29)

本周阅读的论文题目是《You Only Look Once: Unified, Real-Time Object Detection》(你只看一次：统一的实时目标检测)。本文中提出了一种单阶段的目标检测算法YOLO，YOLO舍弃候选框提取，直接采用回归的方法进行物体分类和候选框预测。并且与之前两阶段的基于分类器的方法不同，YOLO是直接在对应检测性能的损失函数上训练，整个模型是联合训练的。本文中YOLO将图片平均分成个网格，每个网格分别负责预测中心点落在该网格内的目标。

原创 2024-12-29 13:23:31 · 1375 阅读 · 0 评论
目标检测文献阅读-Faster R-CNN：通过区域建议网络实现实时目标检测(12.16-12.22)

本周阅读的论文题目是《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》(《Faster R-CNN：通过区域建议网络实现实时目标检测》)，文中介绍的Faster R-CNN是在R-CNN、Fast R-CNN基础上进行改进的目标检测方法。在上一周中学习的R-CNN方法存在训练过程不连续、无法共享同一张图的CNN特征、目标检测速度慢等问题。

原创 2024-12-22 13:23:39 · 1566 阅读 · 0 评论
目标检测文献阅读-针对高准确度的目标检测与语义分割的多特征层级(12.9-12.15)

本周阅读的论文题目是《》(《针对高准确度的目标检测与语义分割的多特征层级》)，文中介绍的由和CNN结合形成具有CNN特征的区域即R-CNN，是利用深度学习进行目标检测的开山之作。本文的核心观点是能否用深度学习替换传统的图片特征提取方法从而更好的实现目标检测的效果。R-CNN较之前大大提升了目标检测的验证指标mAP，并且证明了可以将CNN应用在自底向上的候选区域从而进行目标分类和目标定位，以及当标记的训练数据稀缺时，进行神经网络的迁移学习。

原创 2024-12-15 13:05:44 · 1024 阅读 · 0 评论

文献阅读

作者: yc_23

KAG：通过知识增强生成提升专业领域的大型语言模型（二）

KAG：通过知识增强生成提升专业领域的大型语言模型（一）

RAG文献阅读——用于知识密集型自然语言处理任务的检索增强生成

第一人称动作识别文献阅读——LaViLa：从大型语言模型中学习视频表征信息

第一人称动作识别文献阅读——EPIC-Fusion：用于以自我为中心动作识别的视听时序绑定

第一人称动作识别文献阅读——LSTA：用于自我中心动作识别的长短期注意力机制

第一人称动作识别文献阅读——注意力即一切：精准定位以物体为中心的注意力机制实现自中心活动识别

人体骨架识别文献阅读——ST-TR：基于时空Transformer网络的骨架动作识别

人体骨架识别文献阅读——DGNN：基于骨架的动作识别与有向图神经网络

人体骨架识别文献阅读——2s-AGCN：基于骨架动作识别的双流自适应图卷积网络

人体骨架识别文献阅读——ST-GCN：基于骨骼动作识别的时空图卷积网络

语义分割文献阅读——SETR：使用Transformer从序列到序列的角度重新思考语义分割

语义分割文献阅读-DeepLab v3+：基于空洞可分离卷积的语义图像分割编码器-解码器(1.20-1.26)

语义分割文献阅读-SegNet：一种用于图像分割的深度卷积编码器-解码器架构（1.13-1.19）

语义分割文献阅读-FCN：用于语义分割的全卷积网络(1.6-1.12)

目标检测文献阅读-DETR：使用Transformer进行端到端目标检测

目标检测文献阅读-YOLO：统一的实时目标检测(12.23-12.29)

目标检测文献阅读-Faster R-CNN：通过区域建议网络实现实时目标检测(12.16-12.22)

目标检测文献阅读-针对高准确度的目标检测与语义分割的多特征层级(12.9-12.15)