善良的L君丶-CSDN博客

原创 Datawhale AI夏令营 CV方向基于YOLOv8的智能识别系统

YOLO模型经过了多次迭代，包括YOLOv2（YOLO9000）、YOLOv3和YOLOv4等版本，每个版本都在性能和速度上有所提升，同时也引入了一些新的技术，如更深的网络结构、更好的锚框机制、多尺度特征融合等。非机动车（如自行车、‌电动车等）‌未按照规定停放在指定的非机动车停车泊位或停车线内，‌而是在非机动车禁停区域或未划定的区域（消防通道、盲道、非机动车停车区线外、机动车停车区等）随意停放。机动车在设有禁止停车标志、标线的路段停车，或在非机动车道、人行横道、施工地段等禁止停车的地方停车。

2024-08-25 15:16:37 335

原创继RWKV、Mamba、KAN之后号称超越Transformer的线性架构TTT又来了

总结：喜大普奔，大家又可以水论文了！T_T。

2024-08-18 21:18:49 1163

原创多模态大模型（Multimodal Large Language Model，MLLM）总结

延续BLIP-2的Q - Former, 在Q - Former中添加了Instruct, 从而使得Q - Former能完成Instruction-aware Visual Feature Extraction, 从而将Visual Feature从静态的变为动态的, 能够做到instruction following，其余细节基本一致。lock 的主干上串行的加入一个用 Cross Attention 增强文本表示的模块，从而让文本表示中能融入视觉信息。LLaVA 1.5 是 LLaVA 的改进版本。

2024-08-14 22:44:32 829

原创 MemoryBank：Enhancing Large Language Models with Long-Term Memory

模型中缺乏长期记忆机制。这种不足在需要持续互动的情况下变得越来越明显，如私人伴侣系统、心理咨询和秘书协助。认识到长期记忆的必要性，我们提出了MemoryBank，这是一种为LLM量身定制的新型记忆机制。记忆库使模型能够唤起相关记忆，通过不断的记忆更新不断进化，通过合成以前交互的信息，随着时间的推移理解和适应用户的个性。为了模仿拟人行为并选择性地保存记忆，记忆库引入了一种记忆更新机制，其灵感来自埃宾浩斯遗忘曲线理论。这种机制允许人工智能根据经过的时间和记忆的相对重要性来忘记和强化记忆，从而提供更像人类的记忆机

2024-04-27 17:06:00 2102 1

原创 Plan-and-Solve Prompting：Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Model

为了解决多步骤推理任务，少镜头思维链（CoT）提示包括一些手工制作的逐步推理演示，使LLM能够显式生成推理步骤，并提高其推理任务的准确性。为了消除手动操作，Zero-shot CoT将目标问题状态与“让我们一步一步地思考”连接起来，作为LLM的输入提示。尽管Zero-shotCoT取得了成功，但它仍然存在三个缺陷：计算错误、遗漏步骤错误和语义误解错误。为了弥补遗漏的步骤错误，我们提出了计划和解决（PS）提示。它由两个部分组成：首先，设计一个计划，将整个任务划分为更小的子任务，然后根据计划来划分子任务。

2024-04-27 16:46:59 2071

原创 LLM-Blender：Ensembling Large Language Models with Pairwise Ranking and Generative Fusion

LLM-BLENDER，这是一个集成框架，旨在通过利用多个开源大型语言模型（llm）的不同优势来获得持续的卓越性能。我们的框架由两个模块组成：配对器和基因器，解决了不同例子的最佳llm可能显著不同的观察。成对器采用一种专门的成对比较方法来区分候选输出之间的细微差异。它联合编码输入文本和一对候选文本，使用交叉注意编码器来确定优选文本。我们的结果表明，配对排序者与基于chatgpt的排名的相关性最高。然后，GENFUSER旨在合并排名最高的候选人，通过利用他们的优势和减轻他们的弱点来产生更好的产量。

2024-04-27 16:07:15 1836

翻译 SEMQA：Semi-Extractive Multi-Source Question Answering

最近提出的由大型语言模型（LLM）支持的长形式问答（QA）系统显示出了很有前途的能力。然而，对其生成的抽象答案进行归因和验证可能很困难，自动评估其准确性仍然是一个持续的挑战。在这项工作中，我们引入了一种新的QA任务，通过以半提取的方式总结多个不同的来源来回答多个答案的问题。具体来说，半抽取式多源QA（SEMQA）要求模型输出一个全面的答案，同时将事实引用的跨度（从给定的输入源逐字复制）和非事实自由文本连接器混合在一起，将这些跨度粘合成一个连贯的段落。

2024-04-27 15:31:27 73

翻译 Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages

尽管LLM取得了成功，但由于可用的训练数据太少，它们往往难以在低资源语言上表现良好。这种简化在开源模型中尤其普遍。在这项工作中，我们探索训练LLaMA-2说阿姆哈拉语，阿姆哈拉语是一种全世界有5000多万人使用的语言，但其可用数据比英语等语言少几个数量级。我们使用以前用于在其他数据稀缺的语言上训练LLM的方法，并使用开源翻译模型来执行数据扩充，并将我们的数据集从数百万个令牌增长到数十亿个令牌。我们通过连接图像编码器，并以与LLaVA相同的方式在翻译的视觉指令调整数据集上进行训练，进一

2024-04-27 15:16:11 101

翻译 Cost-Performance Optimization for Processing Low-Resource Language Tasks Using Commercial LLMs

对于高资源语言（HRL），大型语言模型（LLM）表现出令人印象深刻的零/少镜头推理和生成质量。他们中的一些人已经接受了低资源语言（LRL）的培训，并且表现不佳。由于训练LLM的成本过高，它们通常被用作网络服务，客户端按输入和输出令牌的计数收费。令牌的数量在很大程度上取决于脚本和语言，以及LLM的子单词词汇表。我们发现LRL在定价上处于劣势，因为众所周知的LLM为LRL产生的代币比HRL多。这是因为目前大多数流行的LLM都是针对HRL词汇进行优化的。

2024-04-27 15:08:12 42

翻译 ACL 2022 VLN视觉和语言导航：任务、方法和未来方向综述

视觉和语言导航（VLN）是一个新兴的研究领域，旨在构建一种能够用自然语言与人类通信并在真实3D环境中导航的嵌入式智能体。VLN通过自然语言通信扩展了模拟和真实环境中的视觉导航。如图1所示，VLN是一项涉及到智能体（通常是人）、机器人和环境的任务。机器人和智能体用自然语言进行通信。智能体可能会要求指导，而人类可能会做出回应。智能体根据接收到的指令和观察到的环境导航并与环境交互以完成任务。同时，人类观察环境和机器人状态，并可能与环境交互以帮助机器人。

2023-04-10 16:08:42 1058 1

lllllli_的博客