自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(3984)
  • 收藏
  • 关注

转载 HITSZ-HLT人类语言技术团队招收2025级研究生(含直博生)

团队介绍:哈尔滨工业大学(深圳)人类语言技术团队(HITSZ-HLT) 研究方向主要集中在自然语言处理、情感计算、社交媒体分析、大语言模型、智能体、多模态处理、语言与情感认知等相关领域,以及在社会管理、互联网服务、金融证券等行业的应用落地。主要研究方向:1.大语言模型、大模型检索增强、多智能体协作、智能体记忆2.文本情感计算、多模态情感计算、情感感知与情感支持3.社交媒体态势感知、社交媒体传播分析...

2024-08-22 12:04:28 16

转载 招聘 | 公众号招聘论文解读小伙伴、NICE论文直播平台寻觅小伙伴!

一、【深度学习自然语言处理】公众号负责:前沿论文解读,可配合AI工具要求:热爱NLP、LLM前沿,有刷论文习惯,有经常刷twitter、小红书、知乎等习惯,有敏锐嗅觉可快速识别论文,期望1-2天可产出一篇。有报酬哒~二、NICE论文分享平台主页:https://nice-nlp.github.io寻觅: 优秀的参与者兼主持人,要求具有一定量的paper list,对该公益事业感兴趣,实际参与...

2024-08-22 12:04:28 14

原创 GraphRAG综述来了~

论文:Graph Retrieval-Augmented Generation: A Survey链接:https://arxiv.org/pdf/2408.08921研究背景这篇文章要解决的问题是如何利用图结构信息来增强大型语言模型(LLMs)的生成能力,解决LLMs在处理特定领域知识、实时更新信息和专有知识方面的局限性。研究难点包括:忽略文本之间的关系、冗余信息、缺乏全局信息等。相关工作有检索...

2024-08-22 12:04:28 310

原创 英伟达仅用380B tokens训练刷新8B模型新SoTA,剪枝和蒸馏应该这么用

论文:LLM Pruning and Distillation in Practice: TheMinitron Approach链接:https://d1qx31qr3h6wln.cloudfront.net/publications/minitron_tech_report.pdf单位:nvidia研究背景这篇文章要解决的问题是如何通过剪枝和蒸馏技术来压缩Llama 3.1 8B和Mistr...

2024-08-22 12:04:28 491

转载 你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式

标题你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式时间2024.8.24 10:30-11:30 周六入群内容大纲1.背景-大模型数学推理能力研究现状2.我们为什么需要更好的评估范式?3.MathCheck评估框架设计4.数据构建方法与数据集介绍5.大模型在MathCheck上的性能表现6. 数学推理中的行为分析与发现7. 总结与展望8. QA引言数学推理能力是大语言模...

2024-08-20 20:55:02 36

转载 一文讲明白大模型显存占用(只考虑单卡)

知乎:然荻链接:https://zhuanlan.zhihu.com/p/713256008纯知识分享,侵删1.告诉你一个模型的参数量,你要怎么估算出训练和推理时的显存占用?2.Lora相比于全参训练节省的显存是哪一部分?Qlora相比Lora呢?3.混合精度训练的具体流程是怎么样的?这是我曾在面试中被问到的问题,为了巩固相关的知识,打算系统的写一篇文章,帮助自己复习备战秋招的同时,希望也能帮到各...

2024-08-20 20:55:02 113

转载 从ACL 2024录用论文看混合专家模型(MoE)最新研究进展

PaperWeekly 原创 ·作者 |杨远航单位 |哈尔滨工业大学(深圳)研究方向 |自然语言处理最近 ACL 2024 论文放榜,扫了下,SMoE(稀疏混合专家)的论文不算多,这里就仔细梳理一下,包括动机、方法、有趣的发现,方便大家不看论文也能了解的七七八八,剩下只需要感兴趣再看就好。下面是列表,顺序大抵是个人兴趣程度排序。1. DeepSeekMoE: Towards Ultimat...

2024-08-14 22:17:36 63

转载 无矩阵乘法LLM - 一个来自线性Transformer的视角

标题无矩阵乘法LLM - 一个来自线性Transformer的视角时间2024.8.17周六上午10:30-11:30进群论文:Scalable MatMul-free Language Modeling链接:https://arxiv.org/pdf/2406.02528内容大纲 1. 背景: - 无乘法网络 - 线性注意力机制 2. 无乘法语言模型组件介绍...

2024-08-14 22:17:36 48

转载 MOE系列模型-浅谈

来自:NLP工作站在本文中,梳理了近期 (24年7月前)部分 MOE 大模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B,Mixtral 8x22B,DeepSeek-MoE,Qwen1.5-MoE,DeepSeek-V2。原文:https://zhuanlan.zhihu.com/p/712676995混合专家模型的 Transformer 模型对于...

2024-08-14 22:17:36 57

转载 百篇代码大模型论文最全整理之7月篇

引言来自:CodeFuse本文整理 2024 年 7 月全球各大高校与科研机构发布的 117 篇代码大模型相关论文,其中包括 12 篇发表于今年 ICML 的论文。根据论文内容,我们将这些论文整理为了基座模型、代码微调、测试基准、代码Agent、低资源语言处理、AI代码安全与分析、人机交互、软件工程下游任务应用(包括代码生成、代码翻译、代码优化、SQL 生成、漏洞检测与修复、软件测试、代码审核、用...

2024-08-07 21:08:55 98

转载 一个半月的LLM预训练、微调(SFT/RW/RLHF/DPO)、推理和部署优化、RAG/Agent等最高效路线图...

我们从2024.1月底到现在已经帮助大几十个同学进阶LLM了,课程不断更新优化,好评不断,期待你的加入~一些成果两位大四本科生0基础通过1个半月的学习,一位拿到20k*14,一位拿到23k*16的LLM岗位数位在职传统NLPer拿到LLM岗位20-50%的跳槽涨薪数位在读硕士orPhD由传统NLP转向LLM科研时代,并投稿出论文我们的小团队:23年面试近50场国内LLM大厂通过率100%拿到多个大...

2024-08-07 21:08:55 93

转载 大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

来自: Jina AI这是我在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个 LLM 社区最近热议的问题。他问我们 Jina Embedding 模型能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上栽了跟头。我说:“说实话,我也不确定。” 他接着详细阐述了这个问题对于他研究的重要性,并暗示:Tokenizer 可能是问题的根源,我若有所思...

2024-08-07 21:08:55 52

转载 一文搞懂SFT、RLHF、DPO、IFT

作者:边路腰刀,清华大学 电子系博士在读声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/710652762编辑:青稞AITL;DR• SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐;• SFT 只通过 LLMs 生成的下一个单词进行估计,而 RLHF 和 DPO 通过 LLMs 生成的完整句子进...

2024-08-07 21:08:55 245

转载 语言模型如何确保无害性?通过推理过程中的隐状态解析越狱和安全对齐

标题语言模型如何确保无害性?通过推理过程中的隐状态解析越狱和安全对齐时间2024.8.3 10:00-11:00 周六上午入群论文:How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States链接:https://arxiv.org/abs/2406.05644‍内容大纲一. 大模型的...

2024-07-31 10:43:34 58

转载 大模型Infra发展路径盘点

原文:https://zhuanlan.zhihu.com/p/708594043越来越多人开始关注大模型,很多做工程开发的同学问我怎么入门大模型训练推理系统软件(俗称大模型Infra)。作为一名曾经后台开发岗位同学,大家的心情我感同身受。近年来国内互联网业务整体低迷,而大模型却在逆势崛起,每天新闻可谓繁花似锦,烈火烹油,和其他子领域形成了鲜明对比。环球同此凉热,2023年硅谷裁了几十万软件工程师...

2024-07-31 10:43:34 89

转载 可信大模型 Reliable LLM(一):生成大模型的置信度估计与评测

知乎:没有鱼鳔的鲨鱼链接:https://zhuanlan.zhihu.com/p/696065154本系列 blog 是有关大模型的置信度、不确定性估计及校准的学习笔记分享,这些研究对提高大模型的可靠性有重要意义,我会持续更新相关基础工作和最新研究,相关文献也整理在以下 GitHub 项目中,欢迎关注~https://github.com/AmourWaltz/Reliable-LLMI. 大模...

2024-07-31 10:43:34 152

转载 RNN卷土重来:基于门控记忆槽的线性注意力机制

主题RNN卷土重来:基于门控记忆槽的线性注意力机制时间2024.7.2810:30-11:30 周日入群内容1. 背景 - 基于标准注意力机制的大语言模型 - 线性化方法2. 门控记忆槽注意力机制 - KV memory视角下的attention及其线性化 - 数据依赖的门控机制 - 并行化方法 - 参数化3. 实验 - 基准评测结果 - GSA...

2024-07-23 22:21:54 86

转载 检索增强生成(RAG)技术方法流程最佳实践实验探索

来自:旺知识脆弱的不确定性:大模型的可信度如何被操控检索增强生成(RAG)技术已被证明在整合最新信息、减轻幻觉问题以及提高特定领域内响应质量方面是有效的。尽管如此,许多RAG方法仍因复杂的实现和延长的响应时间而受到影响。典型的RAG工作流程包含多个处理步骤,每个步骤都可以以不同的方式执行。在这里,我们调查现有的RAG方法及其潜在的组合,以识别最佳的RAG实践。通过广泛的实验,我们提出了几种部署RA...

2024-07-21 18:56:59 118

转载 本科生0基础1.5个月拿到LLM高薪岗位近40w学习路径图

我们从2024.1月底到现在已经帮助大几十个同学进阶LLM了,课程不断更新优化,好评不断,期待你的加入~一些成果两位大四本科生0基础通过1个半月的学习,一位拿到20k*14,一位拿到23k*16的LLM岗位数位在职传统NLPer拿到LLM岗位20-50%的跳槽涨薪数位在读PhD由传统NLP转向LLM科研时代,并投稿出论文我们的小团队:23年面试近50场国内LLM大厂通过率100%拿到多个大厂人才计...

2024-07-21 18:56:59 145

转载 大语言模型越狱攻击综述

今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks and Defenses Against Large Language Models: A Survey》。本文聚焦于大模型安全领域,探讨了目前大模型所面临的“越狱攻击”(Jailbreak)问题。目前,大语言模型(LLMs)在各类生成任务...

2024-07-21 18:56:59 336

转载 大型视觉语言模型攻击综述:资源、进展与未来趋势

来自:专知近年来,随着大型模型的显著发展,大型视觉-语言模型(LVLMs)在各种多模态理解和推理任务中展示了卓越的能力。相比于传统的大型语言模型(LLMs),由于更接近多资源的现实世界应用和多模态处理的复杂性,LVLMs 展示了巨大的潜力和挑战。然而,LVLMs 的脆弱性相对较少被探索,在日常使用中可能存在潜在的安全风险。在本文中,我们对现有的各种 LVLM 攻击形式进行了全面的回顾。具体来说,我...

2024-07-20 15:33:23 87

转载 各位,请入局AI大模型,现在!立刻!马上!!

“大模型狂热”从未停止国内巨头战队华为、百度、阿里在AIGC的厮杀中从通用大模型渗透到各垂类应用市场就连中国创投资本也独宠AIGC企业百度、科大讯飞市值分别增加27亿和45亿美元这导致AI人才缺口大、价格贵不少企业开出百万年薪挖掘大模型人才!!作为程序员,如何抢占先机,享受AI技术带来的红利?!????知乎知学堂邀你加入:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭...

2024-07-20 15:33:23 65

转载 论文速递 | 2024 ACL 句子级别的结构化情感分析

题目:RevisitingStructured Sentiment Analysis as Latent Dependency Graph Parsing期刊:2024 ACL作者:周成杰,李波波,费豪,李霏,滕冲,姬东鸿单位:武汉大学论文链接:http://arxiv.org/abs/2407.04801引言情感极性分析(SentimentAnalysis)一直是自然语言处理研究的热门话题。...

2024-07-20 15:33:23 85

转载 大模型+小模型协同处理跨文档理解任务,成本更低,性能更高

“Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models”论文地址:https://arxiv.org/pdf/2406.02148摘要跨文档事件核指代解析(CDECR)涉及将跨多个文档引用的事...

2024-07-20 15:33:23 87

转载 对话AI科学家何晓冬老师:大模型时代的业务探索和个人发展

特邀嘉宾 | He Xiaodong访谈编辑 | Yuan Shaozu来自 |AI小白入门【导读】非常荣幸能与何晓冬老师进行一个小时的深入交流,这次对话让我学到很多。何老师主要分享了大模型带来的机遇、业务探索的过程,以及个人在大模型时代的发展路径。现将对话内容整理成文字版,为方便阅读,部分内容有所删减和调整。何老师简介何晓冬曾就职于美国微软雷德蒙研究院十余年,担任首席研究员及深度学习技术中...

2024-07-19 23:37:57 61

转载 脆弱的不确定性:大模型的可信度如何被操控

主题脆弱的不确定性:大模型的可信度如何被操控时间2024.7.2710:30-11:30周六进群论文:Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models大纲1.介绍uncertainty这个领域和两种常见的衡量方法 entropy计算和conformal prediction2.介绍backdo...

2024-07-19 23:37:57 39

转载 从零预训练LLAMA3的完整指南:一个文件,探索Scaling Law

作者:Mantavers,AGI独角兽声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/706097271编辑:青稞AI引言最近,Andrew大神发布了一个全新的视频教程,讲解了从零开始预训练GPT-2的全过程。这个四小时的视频详细介绍了模型的构建、训练数据的加载、评估方法以及在分布式框架下的DDP训练。受到此视频的启发,我决定使用LL...

2024-07-19 23:37:57 218

转载 为视觉语言多模态模型进行偏好优化

来自:Hugging Face训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项,通常可以简化这一过程,并产出更准确的结果。通过对候选回答的对比和排序,而不是赋予固定的标签,偏...

2024-07-19 23:37:57 42

转载 谷歌重磅:告别RAG,长上下文的大语言模型无需检索增强!

作者:Richard,来源:夕小瑶科技说当今人工智能领域正在经历一场静默的革命。随着大语言模型(LLM)的快速发展,它们不仅能够处理更长的上下文,还展现出惊人的推理和检索能力。难道我们要告别基于LLM的检索增强生成(RAG)了吗?结果还真是这样,最近谷歌发布专门用于评估长上下文语言模型的LOFT测试基准,该测试基准评估长上下文LLM在各种实际任务中的表现,包括信息检索、问答和数据库查询等。LOFT...

2024-07-17 22:47:40 87

转载 NICE分享 | 知识斗地主:解析RAG大模型中复杂的知识冲突综述

主题知识斗地主:解析RAG大模型中复杂的知识冲突时间2024.7.20 周六下午16:00-17:10进群论文:Knowledge Conflicts for LLMs: A Survey地址:https://arxiv.org/pdf/2403.08319github:https://github.com/pillowsofwind/Knowledge-Conflicts-Survey内容(约...

2024-07-17 22:47:40 101

转载 不是H100租不起,而GPU混布更有性价比!

作者:方佳瑞,腾讯 · 专家工程师。声明:本文只做分享,版权归原作者,侵权私信删除!原文:https://zhuanlan.zhihu.com/p/707684656编辑:青稞AI大模型推理加速卷了这么久了,相信大家都明白一件事,用单一类型的GPU来部署和提供大型语言模型(LLM)服务不是最有性价比的方案。一、利用GPU异构性的降本空间目前,LLM推理设备选择的日益丰富,不仅有新旧型号的各种NVI...

2024-07-17 22:47:40 52

转载 深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布

来自:机器之心本文章的作者为清华大学交叉信息院二年级硕士生许融武和一年级博士生祁泽涵,他们也是本篇综述的的主要作者。随着人工智能和大型模型技术的迅猛发展,检索增强生成(Retrieval-Augmented Generation, RAG)已成为大型语言模型生成文本的一种主要范式。这种技术的代表 —— 检索增强的大型语言模型(Retrieval-Augmented Large Language M...

2024-07-11 19:15:49 135

转载 具身大模型研究综述

原创作者:陈一帆,张宇驰,孙楚芮,冯怀绪,宋浩,王寄哲指导老师:张伟男转载出处:哈工大SCIR1. 引言1.1 机器人的智能——通用性和泛化性在上个世纪六十年代,人类已经制造出机器人并且可以控制其执行给定的动作,例如机械臂前移五厘米,或者某个关节旋转九十度。但是对于复杂抽象的人类指令,例如,“我渴了,给我一瓶喝的”,早期需要专家人工设计动作轨迹,然后再由机器人执行[1]。参考上述例子,如果想要实现...

2024-07-11 19:15:49 125

转载 ACL2024|D2LLM:将Causal LLM改造成向量搜索模型的黑科技

来自:CodeFuse语义搜索任务的主要挑战是创建既准确又高效的模型来精准定位与用户查询相关的句子。基于BERT风格的双编码器因为可以使用预先计算的嵌入表示时效率很高,但它们往往会错过句子对的微妙关系。相反,基于 GPT 风格的大语言模型(LLM)采用交叉编码器的设计且能够捕捉到这些微妙关系,但它们的计算量通常很大,阻碍了实际应用。我们提出了一种结合了以上两者的优点的用于语义搜索的分解和蒸馏大型语...

2024-07-11 19:15:49 184

转载 解决问题而非制造问题!GLM-4-AllTools API革新大模型使用体验

在日常使用大模型的时候你是否遇到过以下问题:需要自己字斟句酌提示词(Prompt),进行CoT需要自己为大模型分解任务需要在多种大模型,多种工具(绘图模型,集成开发环境IDE,搜索引擎….)之间辗转才能达到最终目标......这些都是普遍存在,靠目前的单一模型无法解决的问题。把时间推回到250万年前,旧石器时代见证了人类从简单工具的使用者到复杂技术创造者的转变。我们的祖先南方古猿、直立人等,逐步发...

2024-07-10 14:39:29 182 1

转载 留言送书 | 清华汪玉教授团队:首部高效模型压缩与设计专著重磅上市

文末留言,送五本该书!汪玉 宁雪妃 著电子工业出版社-博文视点2024-07-019787121480591 定价: 119.00 元新书推荐????今日福利|关于本书|本书系统地介绍了高效模型压缩和模型设计的方法,在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论,包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外,简要介绍了定制化硬件加速器的设计...

2024-07-10 14:39:29 103 1

转载 2024年6月118篇代码大模型论文最全整理

引言本文整理了2024年6月全球各大高校与科研机构发布的118篇代码大模型相关论文。根据论文内容,我们将其整理为基座模型与训练数据、代码微调、测试基准、代码Agent、低资源语言处理、AI代码安全与分析、人机交互、软件工程下游任务应用(包括代码生成、代码总结、代码表征、SQL生成、软件测试、漏洞检测、日志分析、软件建模)等主题的论文专辑。全文篇幅较长,建议电脑端阅读。若您想了解其他时期的代码大模型...

2024-07-10 14:39:29 288

转载 NICE分享 | Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索...

主题Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索论文:Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization地址:https://arxiv.org/abs/2405.15071状态:在投嘉宾汪博石,是俄亥俄州立大学的三...

2024-07-09 13:34:42 65

转载 中科院深圳先进院SIAT-NLP团队招聘大语言模型方向博士后/助理研究员

中国科学院深圳先进技术研究院(以下简称“先进院”)成立于2006年2月,是中国科学院直属国立科研机构。经过18年的发展积淀,先进院已经成为国内海归密度最高、国际化学术交流氛围最好的国立研究机构之一。已牵头组建了2个全国重点实验室、3个国家创新中心,参与组建3个全国重点实验室。截止2024年,深圳先进院人员规模达4547人,其中员工1748人、学生2799人,已建成一支平均年龄33岁的国际化人才队伍...

2024-07-09 13:34:42 58

原创 一步生成超过10个Tokens!! 无损模型解码加速最新工作

论文:OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure链接:https://arxiv.org/abs/2406.17276代码:https://github.com/Jikai0Wang/OPT-Tree1.背景目前主流的大模型大多是自回归模型(Autoregressive models),其“一步一词”的生成模式...

2024-07-09 13:34:42 239

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除