liferecords-CSDN博客

原创 [全网首发中文版]LLM4Decompile: Decompiling Binary Code with Large Language Models

反编译是将已编译的机器代码或字节码转换回高级编程语言的过程。当源代码无法访问时，通常会这样做来分析软件的工作原理 Brumley 等人 (2013)；Katz 等人 (2018);胡赛尼和多兰-加维特 (2022)；徐等人 (2023);Armengol-Estapé 等人 (2023);江等人 (2023);黄等人(2023)。目前已经开发了许多反编译工具，例如 Ghidra Ghidra (2024) 和 IDA Pro Hex-Rays (2024)。

2024-03-18 15:01:05 2551

原创 [全网首发中文版]TextMonkey: An OCRFree Large Multimodal Model for Understanding Document

我们推出了 TextMonkey，这是一种专为以文本为中心的任务而定制的大型多模态模型 (LMM)，包括文档问答 (DocVQA) 和场景文本分析。我们的方法引入了跨多个维度的增强：通过采用零初始化的转移窗口注意力，我们在更高的输入分辨率下实现了跨窗口连接并稳定了早期训练；我们假设图像可能包含冗余标记，通过使用相似性过滤掉重要标记，我们不仅可以简化词符长度，还可以提高模型的性能。此外，通过扩展模型的功能以涵盖文本识别和基础，并将位置信息纳入响应中，我们增强了可解释性并最大限度地减少幻觉。

2024-03-08 11:44:22 2315 1

原创省钱又提效！大模型Token优化与减少使用技巧全指南

本文系统介绍了大模型Token优化的实用技巧，从Prompt工程、上下文管理到模型路由与缓存策略。核心方法包括：精简系统提示词（可节省60% Token）、使用Few-Shot示例替代长指令、实施上下文压缩（成本降低高达91%）、按需加载工具和文档、建立智能记忆系统。同时提出模型路由策略，根据任务复杂度选择合适模型，并推荐级联调用和缓存技术（可降低90%成本）。这些方法在保证输出质量的前提下，能显著降低Token消耗与AI应用成本，适用于各类大规模AI应用场景。

2026-05-26 17:28:24 422

原创 1元撬动72倍人力：我们拆解了15款产品，发现一人公司的完整武器库

2026年，一人公司（OPC）已成为商业新范式，36.3%的新公司由单人创办。核心在于AI Agent协作而非个人全能，通过OpenClaw等协议实现“人类决策+AI执行”的架构。多Agent平台（如AgentMore、CrewAI）支持群聊协作与角色编排，Vibe Coding工具（Cursor、Replit）让非技术者用自然语言开发产品。技术门槛崩塌后，竞争转向产品判断力，1元AI成本可撬动72倍人力杠杆。一人公司武器库已完备，关键在于工具组合与协议应用。

2026-05-19 16:04:58 384

原创《200+技能、36个数据库接口：AI Agent的科研技能图谱，正在重写“做科研“的定义》

当200+Skill覆盖从单细胞测序到量子计算、从学术搜索到基金申请的完整光谱，当36个数据库接口让Agent“看见”而非“搜索”，当self-improvement让Agent学会“学会”——我们面对的已不是“科研助手”，而是正在进化中的“科研智能体”。

2026-05-19 14:44:17 661

原创 ChatGLM：A Family of Large Language Models from GLM-130B to GLM-4 All Tools

本文介绍了ChatGLM，这是一个不断发展的大型语言模型系列，我们一直在开发中。本报告主要关注GLM-4语言系列，包括GLM-4、GLM-4-Air和GLM-4-9B。这些代表了我们训练的最先进的模型，它们结合了之前三代ChatGLM的所有见解和经验教训。迄今为止，GLM-4模型主要在中文和英文上进行了预训练，使用了大约一万亿个token，以及来自24种语言的一小部分语料库，并主要针对中文和英文使用进行了优化。通过多阶段后训练过程，包括有监督的微调和从人类反馈中学习，实现了高质量的对齐。

2024-06-19 15:56:03 1729

原创 DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

我们介绍了DeepSeek-Coder-V2，这是一个开源的混合专家(MoE)代码语言模型，其性能与GPT4-Turbo在代码特定任务中相当。具体来说，DeepSeek-Coder-V2是从DeepSeek-V2的中间检查点进一步预训练而来，额外使用了6万亿个token。通过这种持续的预训练，DeepSeek-Coder-V2在编码和数学推理能力上大幅度增强了DeepSeek-V2的能力，同时在一般语言任务中保持了相当的性能。

2024-06-19 15:42:37 2282

原创 MDPO：Conditional Preference Optimization for Multimodal Large Language Models

直接偏好优化（DPO）已被证明是大型语言模型（LLM）对齐的有效方法。近期的研究尝试将DPO应用于多模态场景，但发现难以实现一致的改进。通过比较实验，我们确定了多模态偏好优化中的无条件偏好问题，即模型在优化过程中忽略了图像条件。为了解决这个问题，我们提出了MDPO，这是一个多模态DPO目标，它通过同时优化图像偏好来防止过度优先考虑仅基于语言的偏好。此外，我们引入了一个奖励锚点，强制奖励对于选定的响应为正，从而避免了它们的似然度降低——这是相对偏好优化的一个内在问题。

2024-06-18 17:24:40 1435

原创 ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

本文介绍了一个新的基准测试ChartMimic，旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic使用信息密集型的视觉图表和文本指令作为输入，要求LMMs生成相应的图表渲染代码。ChartMimic包含1000个人工策划的(图表，指令，代码)三元组，代表了在各个领域(如物理、计算机科学、经济学等)科学论文中发现的真实图表使用案例。这些图表涵盖了18种常规类型和4种高级类型，细分为191个子类别。此外，我们提出了多级评估指标，以自动全面评估输出代码和渲染图表。

2024-06-17 17:36:28 1295

原创 Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

我们介绍了Xmodel-VLM，这是一个尖端的多模态视觉语言模型。它旨在高效地部署在消费级GPU服务器上。我们的工作直接面对一个关键的行业问题，即通过解决阻碍大规模多模态系统广泛采用的高昂服务成本问题。通过严格的训练，我们从头开始开发了一个10亿规模的语言模型，采用LLaVA范式进行模态对齐。我们称之为Xmodel-VLM的结果是轻量级但功能强大的多模态视觉语言模型。在众多经典多模态基准测试中的广泛测试表明，尽管其体积更小、执行速度更快，但Xmodel-VLM的性能可与更大的模型相媲美。

2024-05-16 15:22:35 756

原创 Introducing Meta Llama 3: The most capable openly available LLM to date

我们希望解决开发人员的反馈，以提高 Llama 3 的整体实用性，并在这样做的同时继续在负责任地使用和部署 LLMs.我们正在接受尽早发布的开源精神，并经常发布，以使社区能够在这些模型仍在开发中时访问它们。在不久的将来，我们的目标是使 Llama 3 成为多语言和多模态的，具有更长的上下文，并继续提高推理和编码等核心LLM功能的整体性能。我们新的 8B 和 70B 参数 Llama 3 模型是 Llama 2 的重大飞跃，并为LLM这些规模的模型建立了新的最先进的技术。

2024-04-22 11:36:56 1862

原创 MeshLRM: Large Reconstruction Model for High-Quality Meshes

MeshLRM是一种新颖的基于LRM（Large Reconstruction Models）的方法，能够仅使用四张输入图像在不到一秒钟的时间内重建出高质量的网格。与以往侧重于基于NeRF重建的LRM不同，MeshLRM将可微分的网格提取和渲染集成到LRM框架中。这允许通过微调预训练的NeRF LRM与网格渲染来实现端到端的网格重建。此外，我们通过简化以前LRM中的几个复杂设计来改进LRM架构。MeshLRM的NeRF初始化是使用低分辨率和高分辨率图像顺序训练的；

2024-04-21 11:09:11 1551

原创 Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

我们介绍了 Reka Core、Flash 和 Edge，这是一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理和推理文本、图像、视频和音频输入。这份技术报告讨论了这些模型的一些训练细节，并提供了全面的评估结果。我们展示了 Reka Edge 和 Reka Flash 不仅是各自计算类别中的最新技术，而且还超过了许多更大的模型，为各自的计算类别提供了巨大的价值。同时，我们最有能力且最大的模型 Reka Core，在自动评估和盲人评估中接近最佳前沿模型（OpenAI, 2023;

2024-04-19 16:57:24 1434

原创 Dynamic Typography: Bringing Text to Life via Video Diffusion Prior

文本动画是一种表达媒介，通过将文字注入动态来转变静态的沟通方式，以此激发情感、强调含义并构建引人入胜的叙事。制作语义感知的动画面临重大挑战，需要图形设计和动画方面的专业知识。我们提出了一种自动化的文本动画方案，称为“动态排版”，它结合了两个具有挑战性的任务：将字母变形以传达语义意义，并根据用户提示赋予它们生动的运动。我们的技术利用矢量图形表示和一个端到端的基于优化的框架。该框架采用神经位移场将字母转换为基础形状，并应用每帧运动，鼓励与预期文本概念的一致性。

2024-04-19 16:53:29 1423

原创 LONG-FORM MUSIC GENERATION WITH LATENT DIFFUSION

音频生成模型在音乐领域取得了显著进展，但迄今为止尚未能够产生具有连贯音乐结构的完整长度音乐曲目。我们展示了通过在长时间上下文上训练生成模型，可以产生最长达到4分45秒的长篇音乐。我们的模型由一个扩散变换器组成，该变换器操作在高度下采样的连续潜在表示上（潜在率为21.5赫兹）。根据音频质量和提示对齐的指标，它获得了最先进的生成结果，主观测试表明它产生了具有连贯结构的完整长度音乐。

2024-04-18 11:01:53 970

原创 Learn Your Reference Model for Real Good Alignment

本文提出了一种新的方法Trust Region DPO (TR-DPO)，用于改进大型语言模型（LLMs）的对齐问题。现有的对齐方法存在不稳定性的问题，研究者们不断发明各种技巧来解决这一缺陷。例如，在语言模型对齐的基本技术RLHF中，除了最大化奖励外，还会最小化可训练策略和SFT策略之间的Kullback-Leibler散度。这种添加可以防止模型过度拟合奖励模型（RM）并生成对RM来说领域外的文本。DPO方法重新定义了RLHF的优化任务，并在隐式中保持策略接近SFT策略的要求。

2024-04-17 09:07:36 1273

原创 TransformerFAM: Feedback attention is working memory

TransformerFAM是一种新型的Transformer架构，它通过引入反馈循环机制，使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的出现，使其能够处理无限长的序列。TransformerFAM不需要额外的权重，能够与预训练模型无缝集成。实验表明，TransformerFAM在处理长上下文任务时显著提高了不同模型大小（1B、8B和24B）的性能，展示了赋能大型语言模型（LLMs）处理无限长度序列序列的潜力。

2024-04-17 09:04:29 1485

原创 Social Skill Training with Large Language Models

本文探讨了如何利用大型语言模型（LLMs）进行社交技能训练。社交技能如冲突解决对于有效沟通和在工作和生活中取得成功至关重要。然而，大多数人难以获得实践社交技能的环境。我们提出了一个通用框架，通过AI伙伴和AI导师（APAM）结合体验学习和现实练习以及量身定制的反馈来进行社交技能训练。本工作最终呼吁跨学科创新，以解决劳动力发展和社会平等的更广泛影响。

2024-04-08 17:11:53 1025

原创 Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

本研究介绍了CT-LLM（Chinese Tiny Large Language Model），这是一个2B参数的大型语言模型（LLM），它标志着在开发LLMs时优先考虑中文的重大转变。CT-LLM的独特之处在于，它从头开始，主要通过包含1200亿个token的广泛语料库进行预训练，其中包括800亿个中文token、300亿个英文token和100亿个代码token。这种战略性组成通过比对技术增强了模型在理解和处理中文方面的卓越能力。

2024-04-08 17:09:16 1420

原创 Advancing LLM Reasoning Generalists with Preference Trees

我们介绍了Eurus，一系列针对推理任务优化的大型语言模型（LLM）。Eurus模型基于Mistral-7B和CodeLlama-70B进行微调，实现了在多个涵盖数学、代码生成和逻辑推理问题的基准测试中的最先进性能。值得注意的是，Eurus-70B在12个测试覆盖五个任务的全面基准测试中击败了GPT-3.5 Turbo，并在LeetCode和TheoremQA这两个具有挑战性的基准测试中分别达到了33.3%的pass@1准确率和32.6%，显著优于现有的开源模型，性能提升超过13.3%。

2024-04-03 11:50:51 1279

原创 Long-context LLMs Struggle with Long In-context Learning

大型语言模型（LLMs）在处理超过32K个token的长序列方面取得了显著进展。然而，它们的性能评估主要局限于诸如困惑度和合成任务等指标，这些指标可能无法充分捕捉它们在更微妙、现实世界场景中的能力。本研究引入了一个专门的基准测试（LongICLBench），专注于极端标签分类领域内的长上下文学习。我们精心选择了六个数据集，标签范围从28到174个类别，涵盖了从2K到50K个token的不同输入（少量示例演示）长度。我们的基准测试要求LLMs理解整个输入，以识别庞大的标签空间，从而做出正确的预测。

2024-04-03 11:46:24 1046

原创 Jamba: A Hybrid Transformer-Mamba Language Model

我们介绍了Jamba，一种新的基于新颖混合Transformer-Mamba混合专家（MoE）架构的基础大型语言模型。具体来说，Jamba交错了Transformer和Mamba层的块，享受两个模型家族的好处。在这些层中的一些层添加了MoE，以增加模型容量，同时保持活跃参数使用量可控。这种灵活的架构允许针对资源和目标的特定配置。在我们实现的特定配置中，我们得到了一个强大的模型，适合在单个80GB GPU中运行。

2024-04-02 16:49:17 1514

原创 Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

大型语言模型（LLM）在智能手机上的应用越来越广泛，如智能助手、文本摘要、翻译和多模态任务等。然而，当前的设备上LLM部署方法推理速度慢，导致用户体验不佳。为了在设备GPU上高效部署LLM，我们提出了四种优化技术：（a）基于符号表达式的方法支持动态形状模型推理；（b）算子优化和执行优先级设置以提高推理速度并减少手机延迟；（c）一种称为M0E4的FP4量化方法减少了反量化开销；（d）基于子张量的技术消除了LLM推理后对KV缓存进行复制的需求。

2024-04-02 16:44:15 1704

原创 Multi-font Multi-size Kannada Numeral Recognition Based on Structural Features

本文提出了一种快速新颖的多字体多尺寸卡纳达数字识别方法，该方法无需细化且不需要尺寸标准化。使用不同的结构特征进行数字识别，包括四个方向的像素方向密度、水库原理、最大轮廓距离和填充孔洞密度。使用欧几里得最小距离准则来找到最小距离，并使用K最近邻分类器对卡纳达数字进行分类，数字图像的尺寸从16到50不等，涵盖了来自NUDI和BARAHA流行文字处理卡纳达软件的20种不同字体样式。测试了总共1150个数字图像，分类的整体准确率达到了100%。该方法平均耗时0.1476秒。

2024-03-29 17:39:56 607

原创 KOSMOS-2.5: A Multimodal Literate Model

我们介绍了KOSMOS-2.5，这是一个用于机器阅读文本密集型图像的多模态文学模型。KOSMOS-2.5在大规模文本密集型图像上进行预训练，擅长两个不同但相互合作的转录任务：(1) 生成空间感知的文本块，每个文本块在图像中分配其空间坐标；(2) 生产结构化文本输出，以markdown格式捕捉样式和结构。通过共享的Transformer架构、特定任务的提示和灵活的文本表示，实现了这种统一的多模态文学能力。我们在端到端的文档级文本识别和图像到markdown文本生成上评估了KOSMOS-2.5。

2024-03-29 17:16:51 1669

原创 Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

在这项工作中，我们介绍了Mini-Gemini，这是一个简单而有效的框架，用于增强多模态视觉语言模型（VLMs）。尽管VLMs在促进基本视觉对话和推理方面取得了进展，但与先进的模型如GPT-4和Gemini相比，性能差距仍然存在。我们试图通过挖掘VLMs的潜力，以实现更好的性能和任何到任何的工作流程，从三个方面缩小这一差距，即高分辨率视觉令牌、高质量数据和VLM引导的生成。为了增强视觉令牌，我们提出使用额外的视觉编码器进行高分辨率细化，而不增加视觉令牌计数。

2024-03-28 18:09:57 2223

原创 ViTAR: Vision Transformer with Any Resolution

本文解决了视觉Transformer（ViTs）面临的一个重大挑战：在不同图像分辨率下的可扩展性受限。通常，ViTs在处理训练时未见过的分辨率时，性能会下降。我们的工作引入了两个关键创新来解决这个问题。首先，我们提出了一个动态分辨率调整的新颖模块，设计了一个单一的Transformer块，专门用于实现高效的增量令牌整合。其次，我们在视觉Transformer中引入了模糊位置编码，以在多个分辨率下提供一致的位置感知，从而防止对任何单一训练分辨率的过拟合。

2024-03-28 18:05:16 2090

原创 RoDLA: Benchmarking the Robustness of Document Layout Analysis Models

在现实世界的应用中开发文档布局分析(DLA)模型之前，进行全面的鲁棒性测试是必不可少的。然而，DLA模型的鲁棒性在文献中尚未被充分探索。为了解决这个问题，我们首次引入一个DLA模型的鲁棒性基准测试，它包括三个数据集的450K文档图像。为了涵盖现实中的文档损坏情况，我们提出了一个包含36种常见文档损坏的扰动分类法，灵感来源于现实世界的文档处理。此外，为了更好地理解文档扰动的影响，我们提出了两个新的度量方法，分别是平均扰动效应(mPE)和平均鲁棒性降级(mRD)。

2024-03-26 14:26:00 633

原创 UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS

大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调的LLMs）提供了深入分析，并在三个任务上评估了它们的能力：（i）HTML元素的语义分类，（ii）HTML输入的描述生成，以及（iii）HTML页面的自主Web导航。

2024-03-25 14:03:21 1272

原创 Can large language models explore in-context?

本文研究了当代大型语言模型（LLMs）在无需训练干预的情况下，能否在上下文中进行探索，这是强化学习和决策制定中的一个核心能力。我们专注于现有LLMs的原生性能，通过在简单的多臂老虎机环境中部署LLMs作为代理，并完全在上下文中指定环境描述和交互历史。我们使用GPT-3.5、GPT-4和Llama2进行实验，发现除了一种配置外，其他配置都无法稳健地进行探索行为：GPT-4结合链式思维推理和外部总结的交互历史，呈现为充分统计信息。

2024-03-25 13:34:14 653

原创 LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

预训练的大型语言模型（LLMs）目前是解决绝大多数自然语言处理任务的最新技术。尽管许多实际应用仍然需要微调以达到令人满意的性能水平，但许多应用处于低数据量状态，这使得微调变得具有挑战性。为了解决这个问题，我们提出了LLM2LLM，这是一种针对性和迭代式的数据增强策略，它使用教师LLM通过增加可用于特定任务微调的数据来增强小型种子数据集。

2024-03-25 13:20:44 1639

原创 InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructio

本研究探讨了通过人类编写的指令，在现实世界文档上完成各种视觉文档理解（VDU）任务的问题，例如问答和信息提取。为此，我们提出了InstructDoc，这是第一个大规模的集合，包含30个公开可用的VDU数据集，每个数据集都有多种指令，采用统一格式，涵盖了12个不同的任务，并包括开放的文档类型/格式。此外，为了提高VDU任务的泛化性能，我们设计了一个新的基于指令的文档阅读和理解模型InstructDr，通过一个可训练的桥接模块将文档图像、图像编码器和大型语言模型（LLMs）连接起来。

2024-03-22 12:39:39 1152

原创 PDFTriage: Question Answering over Long, Structured Documents

大型语言模型（LLMs）在处理无法适应其小上下文长度的文档时存在问题。为了克服这一问题，大多数现有工作集中在从文档中检索相关上下文，并将它们表示为纯文本。然而，如PDF、网页和演示文稿等文档自然具有不同的页面、表格、章节等结构。将这些结构化文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不符。当系统需要查询文档以获取上下文时，这种不协调性就显现出来，看似简单的问题可能会难倒QA系统。为了弥补处理结构化文档时的基本差距，我们提出了一种称为PDFTriage的方法，使模型能够基于结构或内容检索上下文。

2024-03-21 16:43:21 625

原创 mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

结构信息对于理解文本丰富的图像（如文档、表格和图表）的语义至关重要。现有的多模态大型语言模型（MLLMs）具备文本识别能力，但缺乏对文本丰富文档图像的通用结构理解能力。本文强调了结构信息在视觉文档理解中的重要性，并提出了统一结构学习来提升MLLMs的性能。我们的统一结构学习包括了跨5个领域的结构感知解析任务和多粒度文本定位任务：文档、网页、表格、图表和自然图像。

2024-03-21 10:40:23 1434

原创 Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

本文提出了一种技术，将大型语言模型（LLMs）的能力转移到视觉语言模型（VLMs）上。尽管VLMs在多模态任务上的表现越来越强，但其推理能力，尤其是小型VLMs的推理能力仍然受限。我们的方法在最近引入的ChartQA上取得了最先进的性能，并且在PlotQA和FigureQA上也展现出了更好的性能。我们首先通过改进图表到表格的翻译任务来提升图表表示，然后在原始训练集的基础上构建了一个比原来大20倍的数据集。为了提高通用推理能力和改善数值运算，我们使用图表的表格表示来合成推理路径。

2024-03-20 16:50:41 792

原创 TnT-LLM: Text Mining at Scale with Large Language Models

文本挖掘是将非结构化文本转换为结构化和有意义的形式，这对于下游分析和应用是基础步骤。然而，大多数现有的标签分类法和基于文本的标签分类器的生成方法仍然严重依赖于领域专业知识和手动策划，使得这一过程昂贵且耗时。尤其是当标签空间未明确指定且大规模数据注释不可用时，这一挑战尤为突出。本文提出了TnT-LLM框架，利用LLMs基于提示的接口，以最小的人工努力自动化端到端标签生成和分配过程。在第一阶段，我们引入了一种零样本、多阶段推理方法，使LLMs能够迭代地产生和完善标签分类法。

2024-03-20 16:43:57 1539

原创 UNI-SMART: UNIVERSAL SCIENCE MULTIMODAL ANALYSIS AND RESEARCH TRANSFORMER

在科学研究及其应用中，科学文献分析至关重要，因为它允许研究人员建立在他人工作的基础上。然而，科学知识的快速增长导致了学术文章的大量增加，使得深入的文献分析变得越来越具有挑战性和耗时。大型语言模型（LLMs）的出现为应对这一挑战提供了新的方法。LLMs以其强大的文本摘要能力而闻名，被视为改进科学文献分析的潜在工具。然而，现有的LLMs有其局限性。科学文献通常包括广泛的多模态元素，如分子结构、表格和图表，这对于以文本为中心的LLMs来说难以理解和分析。

2024-03-19 10:41:43 1413

原创 RAFT: Adapting Language Model to Domain Specific RAG

预训练大型语言模型（LLMs）在大量文本数据上已成为标准范式。在使用这些LLMs进行许多下游应用时，通常会通过基于RAG的提示或微调，将新知识（例如，时效性新闻或私有领域知识）融入预训练模型中。然而，模型获取这些新知识的最优方法仍然是一个开放问题。本文提出了一种名为Retrieval Augmented Fine Tuning（RAFT）的训练方法，它提高了模型在“开卷”领域特定设置中回答问题的能力。RAFT通过训练模型忽略那些对回答问题没有帮助的文档（我们称之为干扰文档），来实现这一点。

2024-03-19 09:42:02 1181

原创 LLM4Decompile: Decompiling Binary Code with Large Language Models

LLM4Decompile是一种使用大型语言模型（LLMs）进行二进制代码反编译的方法。该方法旨在将编译后的机器代码或字节码转换回高级编程语言。LLM4Decompile通过级联三个生成对抗网络（GANs）来处理低分辨率的汇编代码，并通过频带扩展和立体声混音将其上采样为高分辨率的源代码。与以往的工作相比，LLM4Decompile提出了一个统一的基于GAN的生成器和鉴别器架构，以及每个阶段的训练过程。

2024-03-18 13:30:59 1843

原创 xAI 发布 Grok-1 — 最大的开源LLM

埃隆·马斯克（Elon Musk）一直直言不讳地表达了他对“觉醒人工智能”的担忧，他引用了谷歌的双子座（Gemini）作为人工智能系统的一个例子，该系统将多样性计划置于潜在危险的程度。Grok 是一个拥有 3140 亿个参数的庞大语言模型，是目前最大的开源模型。需要注意的是，由于 Grok-1 模型的庞大尺寸（包含 3140 亿个参数），因此需要具有足够 GPU 内存的机器才能使用提供的示例代码测试模型。不幸的是，我目前无法访问能够在本地运行 Grok 的硬件，因此我无法提供该模型的第一手示例。

2024-03-18 13:01:43 2144 2

paddlepaddle-gpu 适配Spark DGX GB10服务器 python包

基于develop分支开发适配Spark DGX GB10服务器，cuda版本为13.0，算力 sm12.1。目前GB10服务器属于最高算力的最新服务器。目前构建对于flashattn构建存在问题，但对于不使用LLM等其他小模型应该是没有问题的。验证脚本 import paddle paddle.utils.run_check()

2026-01-05

Dataset - TSR数据集同花顺文档图片表格结构识别算法-数据集

详细的数据情况：https://contest.aicubes.cn/#/detail?topicId=51 数据量700+, 标注格式为xml，经过简单脚本转化，即可实现在项目上训练

2024-12-03

ICDAR2024论文集 - Part 1

ICDAR2024文档顶会论文共有6部分，这里为第一部分。下载后直接将后缀改为论文文档的后缀即可。

2024-09-18

python的柱状图，绘制漂亮

单文件执行效果，修改简单，一个函数就能绘制，内含多种配置参数绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD 绘制python柱状图，详细见：http://t.csdnimg.cn/8aleD

2024-02-29

手写化学式数据集，企业级数据集、可应用实际生产环境

详细的数据情况请查看csdn博客链接：http://t.csdnimg.cn/X5O5m 数据量 10万+, 标注支持三种格式 chemfig, ssml，ssml_sd满足你各类标注要求,因每个文件大小都大于2G，所以提供链接下载，请务必将所有文件下载完成后进行解压，下载完整后解压，下载完整后解压，下载完整后解压本数据集收集了大量的手写化学式，旨在支持和促进化学式的自动识别技术的发展。数据集包含了多种化学元素和化合物的手写表示，适用于企业级应用，比如药品研发、教育、化工制造等行业。该数据集经过严格的质量控制和预处理，可以直接应用于实际生产环境，为机器学习模型的训练提供高质量的输入数据。该手写化学式数据集包括以下特点和资源扩充说明：数据多样性：数据集涵盖从小学到大学水平的手写化学式，包括不同书写风格、字迹清晰度和复杂度，以适应不同年龄段和教育背景的识别需求。质量控制：每个样本都经过了多轮的审核和校正，确保其代表性和准确性。错误的或不清晰的样本被排除，确保了数据集的整体质量。标注信息：每个手写化学式样本都附带了详细的标注信息，包括化学式的正确文本表示、

2024-02-28

深度学习 OCR 弯曲/圆形文本数据集

必看：因涉及到敏感词，标题不够展现数据集内容 1. 数据集主要是按照印章标准生成企业名称 2. 数据集内的标注采用labelme进行标注，json的格式哦，需要转换成ocr常用的格式标准可在进行交流沟通 3. 不仅有文本区域的标注点，并且还有文字字符标注哦，一个字一个字标注真是累死人。 3.标注的细粒度按照字符级进行标注，标注点个数根据文字数决定，是不是很省事，很贴心 4. 主要用于印章文字检测方面的深度学习，简单修改脚本，让你的炼丹之路更加顺畅。 -------------------------------------------------------------------------- 因涉及一些敏感信息，或有涉及侵权，请及时联系，我将立刻下架。另外，需要的同行朋友尽快下载，这东西开放的资源不多，且行且珍惜吧

2022-05-25

深度学习多类别电表读数OCR数据集

该数据集可采用OCR的方式去实现电表数字的提取，再也不用手工录入电表数了，可以开开心心摸鱼去含标注数据，让你直接开始炼丹，花小钱赚大钱。 --------------------------------------------------------- 特别申明：注意看这里！！！注意看这里！！！注意看这里！！！ --------------------------------------------------------- 该电表数据集是数字电表，非指针电表 --------------------------------------------------------- 主要通过OCR技术，检测识别电表的数字，并进行统计，关于这部分的代码，可以付费提供，有需要留言。 ---------------------------- 免责声明：若侵权，请联系，第一时间下架相关资源。

2022-05-25

自标注老鼠数据集内含2000+图片

1. 适用于目标检测，可以用来作微调模型 2.VOC数据格式，方便算法加载 3.数据来源：通过摄像头采集到视频进行标注 4. 价格优惠，基本就是白嫖劳动力了

2022-03-23

工业真实场景保压表数据集

1. 真实工业场景，实际拍摄 2. 多种保压表，且已有labelme的json标注格式 3. 100+张图片，内部数据集