哇哇九号-CSDN博客

原创 Graph RAG 相关论文与方法汇总（持续更新）

思考、图交互、执行prompt。

2024-10-15 21:29:12 363

原创无人机（Unmanned Aerial Vehicle, UAV）视觉感知论文汇总

综述类A Survey of Object Detection for UAVs Based on Deep LearningDeep Learning for UAV-based Object Detection and Tracking：A surveyMoving Target Tracking by Unmanned Aerial Vehicle：A Survey and TaxonomyVision-Based Learning for Drones：A Survey检测类Whe

2024-08-15 00:23:44 1465

原创论文笔记——Vision-Based Learning for Drones: A Survey

随着新材料、电子和光学器件的集成化、板上计算能力的增强、电池技术、定位系统的提升，许多新的无人机在开发中。无人机的小型化；无人机的新设计；无人机的自主化。以往的综述往往集中在某个特定的方向：例如无人机导航、视觉引导的无人机降落、无人机避障、无人机视觉感知、以及自动化无人机比赛。这个综述提供了一个更加综合的视角。

2024-07-29 00:30:08 487

原创跨文档、跨片段 RAG 论文小汇总

为了将外部知识库有效引入大模型进行回答，RAG（检索增强生成）被开发。在原始的 RAG（naive RAG）流程中，外部文档经历切片、检索、生成，获取到最终答案输出。但在处理需要跨文档、或者跨片段的问题时，naive RAG 显得心有余而力不足。因此不同的方法被提出来解决这一问题。我们对相关论文进行了一些汇总。

2024-07-18 14:05:51 633

原创 RAG 流程及论文串烧

此外评估框架 (Truelens)[https://github.com/truera/trulens/tree/main] 推荐 RAG triad：检索结果和问题的相关性、回答问题的真实性（LLM 是否遵循检索结果进行回答）、以及问题和答案的相关性。使用答案忠实度和相关性作为生成的答案的真实度评价，并使用传统的上下文精度和召回作为检索部分的评估标准。RAG 性能评估包含多个方面，例如：答案相关性、答案忠实度、检索的上下文相关性等。所有 RAG 系统中的最后一步：根据检索到的上下文进行结果输出。

2024-06-19 20:11:08 523

原创基于 Diffusion 方案的 AI 绘画（AIGC）论文串烧

根据基于 Diffusion 扩散模型的 AI 绘画方案发展脉络，对近期看的一些文章做个总结记录。

2024-05-30 23:33:18 435

原创多模态模型（MLLM）论文串烧

近期看了一些多模态方向的工作，包括图像、文本多模态，图像、视频、语音、文本多模态，做个总结。

2024-05-24 18:50:10 455

原创大型语言模型（LLM）论文串烧

刚好趁着刚看完还有印象稍微做下总结。

2024-05-24 18:44:32 213

原创阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

文章提出 Wav2Lip，基于音频合成对应唇形视频。文章提出实际视频中的不同姿态、尺度、光照的变化，而生成的视频也需要无缝融合到目标视频中。而一些模型可以在静态图像上表现比较好，但是在视频上的效果就不行。首先提出使用一个唇形同步判别器解决唇形不同步的问题（使用基于 SyncNet 的强大的唇同步判别器，强迫生成器生成精确、实际的唇部移动）；另外提出一个新的评估标准精确测量非约束性视频下的唇形同步性能（使用 Syncnet 对视频中的唇部同步进行评估）。

2022-10-24 23:10:57 1904

原创阅读笔记——SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation

年龄估计的一个问题是同样年龄的不同人可能会有较大的外观差异。年老的人可能看上去很年轻，一些年轻人也可能看上去比较老。而另一个问题则是当前的模型都太大了，大小甚至超过500MB，无法在端侧移动设备上部署运行。SSR-Net（Soft Stage wise Regression Network）提出网络非常大的原因是最后的分类层占据了大量的参数，因此提出了一种级联分类的年龄估计方法。通过将原来的需要输出 100 个分类类别数降低到设定数目，并使用多个层级进行分类，对每个层级进行均值计算来得到年龄估计。

2022-09-03 00:11:50 942

原创阅读笔记——MetaAge: Meta-Learning Personalized Age Estimators

我们在之前介绍过一篇由旷世和新加坡国立联合提出的用于年龄估计的论文C3AE，模型只有0.3MB，具备较大的实用价值。但是人脸年龄受种族、肤色、地区等因素的影响，不同的人在同一年龄有不同的外观表现，对所有人脸使用同一套参数进行年龄估计可能会造成估计偏差。MetaAge 提出年龄估计还应当考虑每个人的个人身份属性信息来获得一个更精准的年龄估计。在此基础上使用了元学习的概念进行了包装。.........

2022-08-27 22:26:40 928

原创阅读笔记——C3AE: Exploring the Limits of Compact Model for Age Estimation

年龄估计是一个经典的计算机视觉问题。虽然有许多深度神经网络（例如 AlexNet、Vggnet、Resnet等）被提出，但是它们都不适用于端侧或者移动设备。文章设计了一个轻量化的年龄估计网络 C3AE（Compact yet efficient Casade Context-based Age Estimation model）来解决移动设备上的年龄估计问题。当前的年龄估计方法，可以大致分为基于结合分类与回归和分布估计两类方法。

2022-08-21 20:45:56 762

原创阅读笔记——MobileFaceNets: Efficient CNNs for Accurate Real-Time Face Verification on Mobile Devices

文章基于 MobileNet 系列网络，提出了一种轻量化的人脸识别网络 MobileFaceNet。文章首先分析了通用的轻量化的特征提取网络在人脸识别上效果不佳的原因，然后基于此进行了一系列调整，在人脸识别数据集上取得了较好效果。

2022-08-20 14:48:11 971

原创阅读笔记——RetinaFace: Single-stage Dense Face Localisation in the Wild

人脸检测在许多任务得以应用。例如在人脸属性判断（表情识别、年龄估计）、人脸识别等任务中，人脸检测都是一个前置任务。一般的人脸检测就是独指获取人脸 box 框这一单一任务，而作者提出将人脸检测、人脸对齐、像素级人脸解析放到一个任务，进而提升各个部分的性能。同时和通用目标检测相比，人脸检测在宽高比方面变化更小，而在尺度方面差异较大（从小的几像素到大的几千像素）。手动标注了人脸数据集中的 5 个人脸关键点（左右眼睛、鼻尖、左右嘴角），并发现这 5 个关键点提升了人脸检测性能；...

2022-08-07 01:55:43 842

原创阅读笔记——Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression

目录概述方法损失函数规则Adaptive Wing Loss加权损失图边界信息坐标信息融合实验及指标概述人脸关键点定位中使用深度学习进行热图回归已经是一个主流方法。但是很少有文章去研究热图损失的回归问题。作者认为广泛使用的 MSE 损失有两个问题：一是对小的误差损失不敏感，降低了精确定位高斯分布中心的能力；二是训练过程中所有的像素值都有相同的损失函数和相同的权值，而背景像素占了绝大部分。这引起的问题就是，和 GT 相比，使用 MSE 损失训练的模型预测的特征图模糊而膨胀。作者将热图回归中

2021-12-29 00:55:11 1074

原创阅读笔记——AnatomyNet

目录概述方法数据集网络架构损失函数处理遗漏标注评估指标实验及指标概述这是阅读一篇医学分割方向的论文《AnatomyNet：Deep Learning for Fast and Fully Automated Whole-volume Segmentation of Head and Neck Anatomy》的小笔记。对于头部和脖子位置的癌症，放射疗法是一种常见治疗方案。为了达到对病变区域精准放射的效果，需要医生在 CT 图中标记出病变区域。这一过程耗时长且容易出错。而现有的一些自动处理方法，则是一些

2021-12-24 01:16:07 2161

原创阅读笔记——HRank: Filter Pruning using High-Rank Feature Map

目录概述方法实验和指标可能的问题概述这篇通道裁剪论文同样提到，对于权重裁剪在特定硬件上可以获得加速，但是通用性不够。相对的，通道裁剪就没有这样的问题。因此文章聚焦于通道裁剪达到模型压缩（降低参数量）和加速（减少计算 FLOPs）的效果。同时文章将通道裁剪方法分为两类：一类是基于 CNN 网络内在性质做裁剪，这类裁剪方法不需要修改网络损失，在裁剪后，通过 finetune 恢复模型性能；另一类是自适应重要性排序方法，与前面方法不同的是，这类方法将裁剪方法集成到网络训练损失，然后联合优化一个自适应的

2021-12-20 01:34:43 748

原创阅读笔记——Learning Efficient Convolutional Networks through Network Slimming

目录概述方法实验及指标实验细节实验指标概述CNN 模型在许多方面都取得了进展，但要将一些高精度 CNN 模型应用到实际场景中，还是面临一些问题：模型大小：模型参数和结构需要保存在硬盘上，对于一些嵌入式系统来说是一个不小的负担；运行时内存需求：推理时产生的中间变量需要地方存储；计算操作次数：一个比较大的 CNN 网络在移动设备上的处理时间可能可以达到数分钟，这使得应用于实时应用不现实。这些实际问题使得人们考虑对模型大小进行压缩。这篇文章提出，可以对 BN 层的尺度因子使用 L1 正则化，将 B

2021-12-19 00:11:59 603 3

原创阅读笔记——CRNN：An End-to-End Trainable Neural Network for Image-based Sequence

CRNN——An End-to-End Trainable Neural Network for Image-based Sequence 阅读小笔记

2021-12-16 01:41:45 1549

原创阅读笔记——ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

目录概述方法贝塞尔曲线检测贝塞尔标注生成贝塞尔合成数据集贝塞尔对齐识别分支实验及指标概述尽管文字检测识别已经取得了很大进展，但自然场景下的文字检测识别，一方面由于受到包括文字样式多变、宽高比、字体大小风格、拍摄视角、形状等问题的影响，这些检测识别方法在实际场景下的应用仍然没有得到很好的解决；另一方面，这些端到端的方法要么是基于分割，这需要复杂的后处理，要么需要字符级别的标注信息。方法提出方法的整体架构如下图所示。主要的改进，是提出使用贝塞尔曲线对包括弧形文本在内的各种形状的文本框直接进行回归拟合，并

2021-12-15 00:57:24 562

原创阅读笔记——Real-time Scene Text Detection with Differentiable Binarization

目录概述方法二值化标签生成优化目标实验及指标概述当前文字检测主要分为基于检测和基于分割两种方法。相对于检测的方法，分割方法更便于检测各种不同形状的文本。它的缺点主要是后处理复杂，而且这部分可能成为时间性能瓶颈。而基于检测的方法优点是后处理简单，缺点是不好处理不规则形状的文本，例如弧形文本。对于现有的基于分割的方法，在后处理方面思路基本上一致：对于一个概率图，首先要选定一个固定阈值，将这个概率图进行二值化，随后需要设计算法将二值化区域形成一个个的文字实例。这个阈值的设置，对于检测精度有着较大的影响。如下

2021-12-12 20:18:03 3158

原创阅读笔记——TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes

目录概述方法文本实例表征整体流程网络结构推理流程标签生成训练损失函数数据集及指标数据集数据增强指标概述基于神经网络模型和大数据集的发展，文本检测也受到了广泛关注。但是现有的文本检测方法受限于对文本行的表示方法，例如使用坐标轴对齐的矩形、或者旋转矩形，或者四边形对文本行进行表示，当遇到一些形状更灵活的文本行，例如弧形文本，如下图所示，这样的表示方法便无能为力。而弧形文本在日常生活中又经常出现。一方面，文本检测很重要，在场景理解、物品搜索、自动驾驶等方面都可以有广泛的应用；另一方面由于颜色、尺度、宽高比

2021-12-11 23:04:53 1900

原创阅读笔记——MnasNet: Platform-Aware Neural Architecture Search for Mobile

目录概述方法方法流程问题定义搜索空间搜索算法实验设置结果及指标概述深度学习模型增长的计算量需求使其比较难部署到资源受限的移动或者嵌入式系统上。因此文章提出一种综合考虑精度和时延的模型架构搜索方法，在考虑实际设备时延的情况下，得到速度比 MobileNet V2 更快、精度比 MobileNet V2 更高的 MnasNet 系列模型。方法方法流程方法的框架流程图如下所示。相比一些之前的搜索方法，这里的模型搜索方法主要有两个改进：一是设计了包含精度和时延两个指标的优化器，而且这个时延是在实际设备

2021-12-08 00:56:45 380

原创阅读笔记——A Quantization-Friendly Separable Convolution for MobileNets

目录概述经典量化流程MobileNet V1 量化损失原因分析改进方法结果及结论概述在资源和内存受限的移动或者 IoT 平台上，对深度学习模型进行推理时进行模型量化很重要。Google 提出的 MobileNet V1 模型极大降低了模型模型参数量和内存占用，但是一个缺陷就是 MobileNet V1 中使用的深度分离卷积，在进行量化时造成了极大的量化精度损失。下表所示，在直接对 MobileNet V1 进行训练后 8 bit 量化后，在 ImageNet 数据集上的分类精度从 70.50% 下降到

2021-12-07 01:15:42 2019

原创阅读笔记——Distribution-Aware Coordinate Representation for Human Pose Estimation

目录概述方法坐标编码坐标解码实验结果概述在关键点检测模型中，首先要将高分辨图像缩放到低分辨以产生特征热图（encoder），随后推理中要将低分辨特征热图中的响应位置放大到输入图像以产生最终的关键点结果（decoder）。文章认为，在这个缩放过程中，坐标值的转换存在误差，影响了关键点定位精度。方法坐标编码经典的编码方法，是在给定特征图响应极大值位置和次极大值位置之后，按照如下公式，在特征图上计算出次像素级的坐标精度：这意味着直接将最大响应位置向次最大响应位置移动 0.25 个距离以在特征图上获取次

2021-12-05 22:25:24 374

原创阅读笔记——DeepPose: Human Pose Estimation via Deep Neural Networks

目录概述方法数据集指标及效果概述DeepPose 2014 年由谷歌的研究人员提出，是最先将神经网络应用在人体姿态估计和关键点定位方面的论文。如下图所示，关键点定位中存在一些问题：一些关键点可能很小或者几乎不可见；关键点可能被遮挡，这时候它的位置只能靠猜测；不同部位的关键点可能发生混淆等。方法DeepPose 直接回归关键点坐标，为了提高回归精度，首先基于人体 box 框对关键点坐标进行归一化：模型结构如下图所示，使用 5 个卷积层和两个全连层，最后对于 k 个关键点输出 2k 个坐标

2021-12-05 17:30:07 2989

原创阅读笔记——Simple Baselines for Human Pose Estimation and Tracking

概述Simple Baseline 是微软提出的一个关键点检测框架，它考虑的问题主要是提供一个简单的框架，作为各种算法比较的基准。方法随着精度性能的提升，模型的复杂度也越来越高，这使得找出究竟是哪种结构最为有效变得困难，作者尝试提供一个简单的比较基线，同时发现虽然简单但是同样获得了很好的关键点定位的效果。提出的模型结构是一个特征提取网络加反卷积层。没有使用任何跳层连接，直接在最后一层特征图上使用反卷积。在损失计算方面，使用 MSE（Mean Squared Error）均方误差损失，使用 2D 高

2021-12-05 15:43:54 2459

原创阅读笔记——FCOS：A Simple and Strong Anchor-free Object Detector

概述在目标检测领域，早期已经发展出非常多的 anchor based 检测方法，包括 FasterRCNN、RetinaNet、SSD、YOLO v3 等，但是这类 anchor based 方法，存在一些比较显著的问题：anchor 的大小、宽高比、以及数目都对检测性能有很大有影响；尽管可以针对数据集对 anchor 做精心设计，但是小目标检测效果仍然不够好，而且这也大大降低了泛化性能；为了检测精度，需要布置大量的 anchor，而其中绝大部分是负样本，造成了正负样本不均衡；anchor b

2021-12-04 17:48:31 1166

原创 CutOut、CutMix 与 Mosaic 增强

概述由于数据增强不影响离线推理时的模型速度性能，因此其被当做一类 bag of freebies 方法受到广泛研究。继MixUp后，一些新的数据增强方法陆续被提出。CutOutCutOut 使用一个固定大小的正方形 mask 模板，将图像中一片区域像素值全都设置为灰色。对于不同的数据集设置了不同的 mask 模板边长大小：在cifar10上选择16×16大小的正方形 mask，在cifar100上选择8×8的 mask，SVHN 上选择20×20的mask。这使得模型不仅仅关注图像中的某些特定信

2021-12-02 00:30:21 1636

原创 mixup: BEYOND EMPIRICAL RISK MINIMIZATION 小笔记

概述文章指出一些成功的神经网络所有的两个共同点：首先是会拟合一个训练集，其次是模型规模随着数据集样本增多而增大。同时也指出一些问题：一是尽管在很强的正则化下，模型也可以记住训练数据，而不是根据泛化得到；二是模型容易被对抗样本攻击。方法因此提出MixUp数据增强方法：其中x, y是数据集中的随机样本。MixUp作用理解MixUp扩展了训练数据集的分布，相当于告诉模型，训练样本的线性组合，对应的gt也是线性组合，让模型认为样本间的区域也应该是线性区域，降低了模型在训练样本分布区域中间可能的过拟合震荡

2021-12-01 00:21:02 1177

原创 YOLOX：Exceeding YOLO Series in 2021 阅读小笔记

YOLOX：Exceeding YOLO Series in 2021 阅读小笔记概述由于目标检测发展出许多anchor-free、advanced label assignment方法，但是这些方法在YOLO v4和YOLO v5中都没有应用，因此作者提出了YOLOX，极大提升了YOLO v3的性能。一句话总结：YOLOX在YOLO v3的基础上，通过使用解耦检测头、强化的数据增强方法（Mosaic和MixUp）、anchor free、多正样本、SimOTA Box assign方法（每个grou

2021-11-29 23:33:41 396

原创编程小记录——Leetcode 215

Leetcode 215：寻找数组中的第 K 个大元素基于Python的堆库 heapq除了使用sorted函数进行排序外，对于一个可迭代变量nums和一个常数k，可以使用heapq找到前K个最大值： import heapq return heapq.nlargest(k, nums)[-1]同理可以找到第K个最小值： import heapq return heapq.nsmallest(k, mums)[-1]...

2021-11-16 23:24:09 603

原创 Arrow-RCNN——基于深度神经网络的流程图识别分析

研究意义当前的文档识别技术，在文字识别、表格识别、公式识别、段落识别等都有较多研究，这些技术的组合，组成了最终的文档识别全流程。但在文档中，仍存在一类表达形式——流程图。由于流程图的结构多变、形式多样、连接关系可能比较复杂等原因，对流程图识别的工作还比较少。但同样作为文档中重要的一部分，在一些场景下，对流程图的识别将显著提升文档识别的最终效果。基于此，我们对流程图的识别进行了一些调研，并基于此进行了一些有益的的尝试。在这里我们将简要介绍一篇我们调研过程中遇到的一篇相对比较有代表性的文献《Arro

2021-08-08 23:20:58 2302 13

原创矩阵行优先与列优先

C、C++、CUDA C 行优先；FORTRAN、MATLAB列优先。

2021-02-16 22:57:28 1748

原创用于乒乓球运动分析的深度网络TTNet解读

用于乒乓球运动分析的深度网络TTNet解读深度学习与乒乓球运动分析的有趣融合问题难点相关工作OpenTTGames数据集提出的方法结果深度学习与乒乓球运动分析的有趣融合首先，这是基于深度学习的计算机视觉分析方法在某个领域的一种新奇应用，是多种子任务的集合和集大成者。个人认为最大的贡献不在于技术点的创新，而在于集成了计算机视觉任务在某一特定领域的应用，并集成进一个网络，对我们造成的启发。为了解决乒乓球运动分析中的多种问题，包括目标检测、语义分割、时序事件分析等，来自南韩osai的作者提出一个轻量的多任务

2021-02-16 22:52:23 5907 10

空空如也

空空如也