UnknownBody
码龄14年
关注
提问 私信
  • 博客:568,601
    社区:389
    568,990
    总访问量
  • 1,709
    原创
  • 1,083
    排名
  • 4,026
    粉丝
  • 9
    铁粉
  • 学习成就

个人简介:AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2011-04-05
博客简介:

c_cpp_csharp的专栏

查看详细资料
  • 原力等级
    成就
    当前等级
    8
    当前总分
    5,900
    当月
    198
个人成就
  • 获得4,855次点赞
  • 内容获得68次评论
  • 获得2,087次收藏
  • 代码片获得717次分享
创作历程
  • 1325篇
    2024年
  • 341篇
    2023年
  • 28篇
    2022年
  • 2篇
    2021年
  • 1篇
    2020年
  • 4篇
    2019年
  • 5篇
    2018年
  • 3篇
    2016年
  • 1篇
    2014年
成就勋章
TA的专栏
  • LLM Daily
    付费
    814篇
  • LLM Evaluation
    付费
    68篇
  • Knowledge Graph
    付费
    74篇
  • Survey Paper
    付费
    228篇
  • Multimodal
    81篇
  • LLM for code
    28篇
  • LLM for Medical
    45篇
  • RAG for LLM
    27篇
  • LLM Prompt
    35篇
  • Unlearning
    10篇
  • Urban and Traffic
    15篇
  • LLM Alignment
    32篇
  • LLM hallucination
    27篇
  • LLM Agent
    72篇
  • Time series
    15篇
  • LLM context
    28篇
  • LLM Bias
    10篇
  • LLM RL
    16篇
  • Causal and Reasoning
    58篇
  • LLM Security and Privacy
    62篇
  • LLM Training
    58篇
  • LLM Inference
    25篇
  • MoE
    6篇
  • LLM LoRA
    16篇
  • Recommendation
    27篇
  • LLM for NLP
    31篇
  • LLM Explainability
    8篇
  • LLM COT
    7篇
  • LLM for finance
    15篇
  • Distilling
    29篇
  • Anomaly Detection
    7篇
  • LLM for Graph
    7篇
  • LLM quantization
    6篇
  • LLM for SQL
    5篇
  • Semantic Entropy
    1篇
  • LLM for education
    11篇
  • 深度学习
    12篇
  • LLM Instruction
    14篇
  • Model Forgetting
    13篇
  • Continue Learning
    7篇
  • 顶会论文
  • Graph Neural Network
    22篇
  • LLM for chemistry
    4篇
  • LLM Editing
    11篇
  • DPO
    2篇
  • Visual LLM
    1篇
  • LLM-Chinese
  • NAS
    1篇
  • LLM for psychology
    1篇
  • merging model
    1篇
  • LLM ASR
    1篇
  • health
    2篇
  • 隐私保护
    1篇
  • 编程语言
    19篇
  • 优化算法
  • 机器学习
    5篇
  • 元宇宙
    4篇
  • 区块链
    1篇
  • 数据增强
    3篇
  • 度量学习
    1篇
兴趣领域 设置
  • 数据结构与算法
    推荐算法
  • 人工智能
    tensorflowpytorch迁移学习
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal LLM

多模态大型语言模型 (LLM) 在各种自然语言处理任务(包括从文档中提取数据)中表现出卓越的性能。但是,这些模型的准确性可能会受到文档平面内旋转(也称为倾斜)的显著影响,这是扫描文档的实际场景中的常见问题。本研究调查了文档偏斜对三种最先进的多模态 LLM 的数据提取准确性的影响:Anthropic Claude V3 Sonnet、GPT-4-Turbo 和 Llava:v1.6。我们专注于从合成生成的具有不同偏度的样本文档中提取特定实体。
原创
发布博客 9 小时前 ·
3 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mHumanEval - A Multilingual Benchmark to Evaluate Large Language Models for Code Generation

大型语言模型 (LLM) 的最新进展显著增强了从自然语言提示生成代码的能力。由 OpenAI 开发的 HumanEval 基准测试仍然是使用最广泛的代码生成基准测试。然而,这个和其他 Code LLM 基准测试面临着严重的限制,特别是在任务多样性、测试覆盖率和语言范围方面。当前的评估主要集中在测试用例有限的英语到 Python 转换任务上,可能会高估模型性能。虽然最近的工作解决了测试覆盖率和编程语言 (PL) 多样性,但从低资源语言提示生成代码在很大程度上仍未得到探索。
原创
发布博客 10 小时前 ·
206 阅读 ·
10 点赞 ·
0 评论 ·
0 收藏

Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report

背景:由于劳动密集型结构和叙述式报告,结构化放射学报告仍然不发达。深度学习,尤其是像 GPT-3.5 这样的大型语言模型 (LLM),有望以自然语言自动构建放射学报告。然而,尽管有报道 LLM 在英语以外的语言中效果较差,但其放射学性能尚未得到广泛研究。目的:本研究旨在调查使用 GPT3.5-turbo (GPT3.5) 的放射学报告对 TNM 分类的准确性以及多语言 LLM 在日语和英语中的效用。材料和方法。
原创
发布博客 昨天 10:00 ·
8 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language

在检索增强生成系统中,自生成文档 (SGD) 与检索内容的集成已成为提高大型语言模型性能的一种有前途的策略。然而,以前的研究主要集中在优化 SGD 的使用上,而 SGD 的固有特性仍未得到充分探索。因此,本文对不同类型的 SGD 进行了全面分析,并对各种知识密集型任务进行了实验。我们开发了基于系统功能语言学 (SFL) 的 SGD 分类法,以比较不同 SGD 类别的影响。我们的研究结果为哪些类型的 SGD 最有效地有助于提高 LLM 的性能提供了关键见解。
原创
发布博客 昨天 09:30 ·
84 阅读 ·
4 点赞 ·
0 评论 ·
0 收藏

With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models

最近,在测试心理语言现象的实验中,大型语言模型(LLMs)和视觉语言模型(VLMs)已经证明了作为人类参与者的潜在替代品的能力。然而,一个研究不足的问题是,只有视觉和文本模式的模型在多大程度上能够通过仅从拼写和图像进行抽象推理来隐含地理解基于声音的现象。为了研究这一点,我们分析了VLM和LLM展示声音象征意义的能力(即识别声音和概念之间的非任意联系),以及它们通过开放和闭源多模态模型的语言和视觉模块的相互作用“听到”的能力。
原创
发布博客 前天 21:33 ·
161 阅读 ·
6 点赞 ·
0 评论 ·
0 收藏

2D-TPE: Two-Dimensional Positional Encoding Enhances Table Understanding for Large Language Models

表格在各种域中无处不在,用于简洁地表示结构化信息。使大型语言模型 (LLM) 能够对表格数据进行推理代表了一个积极探索的方向。但是,由于典型的 LLM 仅支持一维 (1D) 输入,因此现有方法通常会将二维 (2D) 表结构扁平化为一系列标记,这可能会严重破坏空间关系并导致不可避免地丢失重要的上下文信息。在本文中,我们首先通过两个精心设计的代理任务,实证证明了这种扁平化操作对 LLM 在捕获表的空间信息方面的性能的不利影响。
原创
发布博客 前天 21:24 ·
235 阅读 ·
5 点赞 ·
0 评论 ·
0 收藏

Prompt Compression for Large Language Models: A Survey

将大型语言模型 (LLM) 用于复杂的自然语言任务通常需要长格式提示来传达详细的需求和信息,这会导致内存使用和推理成本增加。为了缓解这些挑战,已经提出了多种有效的方法,其中提示压缩引起了研究的极大兴趣。本调查概述了提示压缩技术,分为硬提示方法和软提示方法。首先,比较了这些方法的技术方法,然后探索了理解其机制的各种方法,包括注意力优化、参数高效微调 (PEFT)、模态集成和新的合成语言的观点。我们还研究了各种提示压缩技术的下游适应。
原创
发布博客 前天 10:07 ·
453 阅读 ·
22 点赞 ·
0 评论 ·
0 收藏

A CLOSER LOOK AT MACHINE UNLEARNING FOR LARGE LANGUAGE MODELS

大型语言模型 (LLM) 可能会记住敏感或受版权保护的内容,从而引发隐私和法律问题。由于从头开始重新训练的成本很高,研究人员尝试使用机器遗忘学习从 LLM 中删除特定内容,同时保持整体性能。在本文中,我们讨论了 LLM 机器学习中的几个问题,并提供了我们对可能方法的见解。为了解决忘却后模型输出评估不充分的问题,我们引入了三个额外的指标来评估标记多样性、句子语义和事实正确性。然后,我们将忘却方法分为 untargeted 和 targeted,并分别讨论它们的问题。
原创
发布博客 前天 09:15 ·
98 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation

在本文中,我们提出了 1 万亿token平台(1TT Platform),这是一个新颖的框架,旨在通过透明和公平的利润分享机制促进高效的数据共享。该平台促进了数据贡献者之间的协作,前者提供原本未披露的数据集,后者利用这些数据集来增强自己的服务。数据贡献者以货币形式获得报酬,获得数据消费者服务产生的收入的一部分。数据使用者承诺根据预定义的利润分享安排与贡献者分享部分收入。通过采用透明的利润分享范式来激励大规模数据共享,1TT 平台创造了一个协作环境来推动 NLP 和 LLM 技术的进步。
原创
发布博客 2024.11.10 ·
10 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

LayTextLLM: A Bounding Box is Worth One Token Interleaving Layout and Text in a Large Language Model

最近,许多研究表明,将 OCR 衍生的文本和空间布局专门与大型语言模型 (LLM) 相结合对于文档理解任务非常有效。但是,将空间布局与文本集成的现有方法存在局限性,例如生成过长的文本序列或无法充分利用 LLM 的自回归特征。在这项工作中,我们介绍了大型语言模型中的交错布局和文本 (LayTextLLM) 用于文档理解。特别是,LayTextLLM 将每个边界框投影到单个嵌入中,并将其与文本交错,从而有效地避免了长序列问题,同时利用了 LLM 的自回归特征。
原创
发布博客 2024.11.10 ·
86 阅读 ·
4 点赞 ·
0 评论 ·
0 收藏

A Comparative Analysis on Ethical Benchmarking in Large Language Models

这项工作是对机器伦理 (ME) 基准测试领域的贡献,在该领域,开发了测试来衡量智能系统是否准确表示了人类价值观,以及它们是否可靠地按照这些价值观行事。我们确定了当前 ME 基准的三个问题:首先,由于所包含的伦理困境的现实性不足,它们的生态效度受到限制。其次,问答对通常是以相当非结构化的方式生成的,没有真正的包含和排除标准。第三,基准测试通常不可扩展,并且过于依赖人工注释。最后,基准测试不包括足够的语法变化,这限制了结果的稳健性。为了解决这些问题,我们开发了两个新颖的 ME 基准测试;
原创
发布博客 2024.11.09 ·
126 阅读 ·
5 点赞 ·
0 评论 ·
0 收藏

CODEJUDGE : Evaluating Code Generation with Large Language Models

大型语言模型(LLM)在代码生成方面表现出了良好的性能。然而,如何可靠地评估LLM生成的代码仍然是一个未解决的问题。本文介绍了CODEJUDGE,这是一个代码评估框架,它利用LLM来评估生成代码的语义正确性,而不需要测试用例。我们研究了不同的方法来指导LLM进行“慢思维”,以获得深入可靠的评估。我们在四个代码生成数据集和五种编程语言上用四个LLM作为评估器进行了实验。结果表明,在大多数情况下,CODEJUDGE的表现明显优于现有方法。
原创
发布博客 2024.11.09 ·
123 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation

热成像数据与多模态大型语言模型 (MLLM) 的集成为提高自动驾驶系统和许多智能交通系统 (ITS) 应用的安全性和功能性提供了一个令人兴奋的机会。本研究调查了 MLLM 是否可以理解来自 RGB 和热像仪的复杂图像并直接检测物体。我们的目标是 1) 评估 MLLM 从各种集合中学习信息的能力,2) 检测物体并识别热像仪中的元素,3) 确定两个独立的模态图像是否显示相同的场景,以及 4) 使用不同的模态学习所有物体。研究结果表明,GPT-4 和 Gemini 在检测和分类热图像中的物体方面都很有效。
原创
发布博客 2024.11.09 ·
85 阅读 ·
4 点赞 ·
0 评论 ·
0 收藏

Prometheus Chatbot: Knowledge Graph Collaborative Large Language Model for Computer Components

知识图谱 (KG) 在网络对齐、问答和推荐系统 (RS) 等应用中至关重要,因为它们提供结构化的关系数据,有助于推断间接关系。然而,开发能够以自然语言处理用户输入的基于 KG 的 RS 面临着重大挑战。首先,自然语言处理单元必须有效地处理人类语言中的歧义和可变性,以准确解释用户意图。其次,系统必须精确识别实体(如产品名称)并将其链接到 KG 中的相应节点。
原创
发布博客 2024.11.08 ·
122 阅读 ·
5 点赞 ·
0 评论 ·
0 收藏

Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code

自动代码生成一直是一个由来已久的研究课题。随着通用大型语言模型 (LLM) 的进步,编码能力成为衡量模型推理性能的重要指标之一。通常,为了获得 Code LLM,会实施两个阶段的训练范式,即预训练和微调。在微调中,监督微调 (SFT) 和强化学习 (RL) 通常用于提高模型的零样本能力。已经进行了大量工作,通过修改算法或优化数据集来提高模型在代码相关基准上的性能。然而,我们仍然缺乏对 SFT 和 RL 之间相关性的深刻见解。
原创
发布博客 2024.11.08 ·
97 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

MusicRL: Aligning Music Generation to Human Preferences

我们提出了MusicRL,这是第一个根据人类反馈进行微调的音乐生成系统。对文本到音乐模型的欣赏是特别主观的,因为音乐性的概念以及字幕背后的具体意图取决于用户(例如,“欢快的锻炼音乐”等字幕可以映射到复古吉他独奏或技术流行节拍)。这不仅使此类模型的监督训练具有挑战性,而且还要求将持续的人类反馈集成到部署后的微调中。MusicRL是一个预训练的自回归MusicLM模型,该模型通过强化学习进行微调,以最大化序列级奖励。
原创
发布博客 2024.11.07 ·
12 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

OmniParser for Pure Vision Based GUI Agent

最近大型视觉语言模型的成功表明,在推动代理系统在用户界面上运行方面具有巨大的潜力。然而,我们认为,由于缺乏一种强大的屏幕解析技术,如GPT-4V作为跨不同应用程序的多个操作系统上的通用代理,这种多模态模型在很大程度上被低估了,该技术能够:1)可靠地识别用户界面内的可交互图标,2)理解屏幕截图中各种元素的语义,并准确地将预期动作与屏幕上的相应区域相关联。
原创
发布博客 2024.11.07 ·
123 阅读 ·
6 点赞 ·
0 评论 ·
0 收藏

Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

GPT-4o是一个包罗万象的模型,代表了大型多模态语言模型发展的一个里程碑。它可以理解视觉、听觉和文本模式,直接输出音频,并支持灵活的双工交互。开源社区的模型通常可以实现GPT-4o的一些功能,如视觉理解和语音聊天。然而,由于多模态数据、复杂的模型架构和训练过程的复杂性,训练一个包含所有模态的统一模型是具有挑战性的。在本文中,我们介绍了Mini-Omni2,一种能够为视觉和音频查询提供实时端到端语音响应的视听助手。通过集成预训练的视觉和听觉编码器,Mini-Omni2可以保持单个模态的性能。
原创
发布博客 2024.11.07 ·
16 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CAN KNOWLEDGE EDITING REALLY CORRECT HALLUCINATIONS?

大型语言模型(LLM)会出现幻觉,指代生成内容中的非真实信息,尽管它们在任务中具有优越的能力。与此同时,知识编辑已经发展成为一种新的流行范式,可以纠正LLM中编码的错误事实知识,从而避免从头开始重新训练。然而,用于知识编辑的现有评估数据集的一个常见问题是,它们不能确保LLM在编辑之前确实生成了对评估问题的幻觉答案。当LLM在经过不同技术编辑后在这些数据集上进行评估时,很难直接采用性能来评估不同知识编辑方法在纠正幻觉方面的有效性。因此,根本问题仍然没有得到充分验证:知识编辑真的能纠正LLM中的幻觉吗?
原创
发布博客 2024.11.06 ·
421 阅读 ·
23 点赞 ·
0 评论 ·
0 收藏

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback

大型语言和多模态模型的快速发展引发了人们对使用GPT4o等专有模型开发能够处理网络导航等现实场景的自主代理的浓厚兴趣。尽管最近的开源努力试图让代理具备探索环境的能力,并随着时间的推移不断改进,但他们正在合成环境中构建纯文本代理,在这种环境中,奖励信号是明确定义的。这些智能体很难推广到需要多模态感知能力且缺乏地面真实信号的现实环境中。本文介绍了一个开源框架,旨在促进多模态web代理的开发,该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型,以获得基本能力。
原创
发布博客 2024.11.06 ·
15 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多