自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(3461)
  • 收藏
  • 关注

转载 DISC-LawLLM:复旦大学团队发布中文智慧法律系统,构建司法评测基准,开源30万微调数据...

背景介绍随着智慧司法的兴起,智能化方法驱动的智能法律系统可以惠及不同的群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性,之前智慧司法研究方面,主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。最近,大型语言模型(LLMs)展示出强大的能力在不同的传统任务上,为智...

2023-09-28 16:58:11 37

转载 打起来了~ 最小SOTA模型:Mistral 7B,各方面碾压LLaMA2 13B和LLaMA1 34B

深度学习自然语言处理 分享Mistral AI团队自豪地发布了Mistral 7B,这是迄今为止尺寸最小的最强大的语言模型。进NLP群—>加入NLP交流群Mistral 7B简介Mistral 7B是一个73亿参数的模型,具有以下特点:在所有基准测试上优于Llama 2 13B在许多基准测试上优于Llama 1 34B在代码方面接近CodeLlama 7B的性能,同时在英语任务上表现良好使用...

2023-09-28 16:58:11 73

转载 综述 | 多模态大模型最全综述来了!

来自:量子位进NLP群—>加入NLP交流群多模态大模型最全综述来了!由微软7位华人研究员撰写,足足119页——它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:视觉理解视觉生成统一视觉模型LLM加持的多模态大模型多模态agent‍并重点关注到一个现象:多模态基础模型已经从专用走向通用Ps. 这也是为什么论文开头作者就直接画了一个哆啦A梦的形象。谁适合...

2023-09-26 14:22:43 36

原创 华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型

深度学习自然语言处理 原创作者:WinnieChatGPT、LLaMa等大型语言模型(LLMs)在自然语言处理领域带来的革命性进步。通过有监督微调(SFT)的训练方式,这些模型拥有强大的上下文学习能力,在各种任务中都展现了超凡的表现。然而,它们也有一个不小的问题——庞大的存储空间和高昂的计算资源成本。但现在,研究人员们为我们带来了一项新的解决方案——SortedNet。它允许我们在一个大型模型内创...

2023-09-26 14:22:43 25

转载 重磅!OpenAI 在 ChatGPT 内推出语言和图像功能

来自:阿尔法兔进NLP群—>加入NLP交流群转自OpenAI官网...这篇要去看Demo视频实例,会更直观阿法兔研究笔记今天的发送额度用完了...*转发记得附上人家OpenAI的官网博客地址...最好再丰富点细节..公告*本文2233字左右ChatGPT can now see, hear, and speak (openai.com)https://openai.com/blog/chat...

2023-09-26 14:22:43 21

转载 临近23年底,有哪些GenAI产品做起来了?

来自:李rumora16z[1]是硅谷一家有名的投资机构,近期发布了他们根据月浏览量统计的TOP50 GenAI产品[2],并给出了一些洞见。临近23年末尾,今天我们就来一起看看目前的AIGC竞争格局。注:排名主要根据SimilarWeb统计的网页流量和Sensor Tower统计的app流量。所以Midjourney这里的排名有些靠后了,discord上还有很多。多数产品都是这波做起来的80%都...

2023-09-26 14:22:43 25

转载 大模型压缩首篇综述来啦~~

来自:对白的算法屋进NLP群—>加入NLP交流群近来,LLM以惊人的推理效果惊艳全世界,这得益于它巨大的参数量与计算任务。以GPT-175B模型为例,它拥有1750亿参数,至少需要320GB(以1024的倍数计算)的半精度(FP16)格式存储空间。此外,为了有效管理操作,部署该模型进行推理至少需要五个A100 GPU,每个GPU配备80GB内存。巨大的存储与计算代价让有效的模型压缩成为一个亟...

2023-09-26 14:22:43 47

原创 DreamLLM:多功能多模态大型语言模型,你的DreamLLM~

深度学习自然语言处理 原创作者:wkk今天为大家介绍西安交大,清华大学、华中科大联合MEGVII Technology的一篇关于多模态LLM学习框架的论文,名为DREAMLLM。论文:DreamLLM: Synergistic Multimodal Comprehension and Creation论文链接:https://arxiv.org/abs/2309.11499GitHub:https...

2023-09-25 16:56:24 52

转载 注意!EACL, NAACL, ACL 2024只接收ARR系统投稿(附时间表)

来自:HFL实验室进NLP群—>加入NLP交流群ACL 2023 工作会议宣布EACL、NAACL以及ACL 2024大会将只接收ARR系统的投稿,不再开设直接投稿的通道。以下是相关文件和通知的内容,请各位读者提前做好时间规划。‍官方链接:https://www.aclweb.org/portal/content/submission-dates-and-process-eacl-naacl...

2023-09-25 16:56:24 139

转载 COLING/EMNLP/NAACL/NLPCC群,快来~

加微信:DLNLPer,备注:会议 (eg. EMNLP),邀你进群哈。

2023-09-25 16:56:24 19

原创 这篇究极讽刺的文章一出,NLP无了

深度学习自然语言处理 原创作者:Winnie在测试集上预训练?这听起来似乎有点不合常规,但别急,继续往下看!Paper: Pretraining on the Test Set Is All You Need Link: https://arxiv.org/pdf/2309.08632.pdf进NLP群—>加入NLP交流群文章以一项大胆的实验为开端,作者创造了一个高质量的数据集,然而,这个数...

2023-09-25 16:56:24 31

原创 最新研究综述——探索基础模型中的“幻觉”现象

深度学习自然语言处理 原创作者:Winnie“幻觉”问题即模型生成的内容可能包含虚构的信息。它不仅在大语言模型(LLMs)中存在,也存在于图像、视频和音频等其他一系列基础模型中。针对这一问题,一篇最近的综述论文对目前所有基础模型的“幻觉”问题进行了第一次全面的调查,详细分类了各类基础模型中的幻觉现象,审视了现有的减轻幻觉问题的策略,并提出了一套用于评估幻觉程度的标准。Paper: A Survey...

2023-09-22 15:58:33 68

转载 prompt概念提出者之一刘鹏飞发布Abel,仅仅使用SFT即可达数学开源SoTA,超越十亿多美元模型MathGPT和GPT4...

「深度学习自然语言处理」公众号分享今天突然看到prompt概念提出者刘鹏飞(现上交大副教授)在twitter上的消息:SFT的潜力仍未完全释放!!!无需使用工具,无需在数学语料库上进行持续预训练,无需RLHF,仅仅使用SFT,我们在GSM8k(83.62)和MATH(28.26)数据集上实现了开源LLM的SoTA(不使用外部工具):https://github.com/GAIR-NLP/abel。...

2023-09-22 15:58:33 57

原创 北大王选实验室 | 摘要已死?

深度学习自然语言处理 原创作者:Winnie最新一篇研究里探索了大型语言模型(LLMs)在文本摘要这一领域的表现。他们设计了新的数据集,通过一系列人类评估实验评估LLMs在不同摘要任务中的表现。惊人的是,大多数人类评估者实际更倾向于选择LLM生成的摘要,甚至超过了参考摘要(人工编写)的标准。这个结果意味着,LLMs的介入可能会使许多传统的文本摘要工作(在特定的数据集上微调)变得多余。当然,我们也看...

2023-09-21 11:09:55 44

转载 复旦NLP | 80页大模型Agent综述

来自:机器之心进NLP群—>加入NLP交流群智能体会成为打开 AGI 之门的钥匙吗?复旦 NLP 团队全面探讨 LLM-based Agents。近期,复旦大学自然语言处理团队(FudanNLP)推出 LLM-based Agents 综述论文,全文长达 86 页,共有 600 余篇参考文献!作者们从 AI Agent 的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-ba...

2023-09-21 11:09:55 32

原创 OpenBA:开源模型家族再添一员!从头训练的15B中英非对称Encoder-Decoder结构双语模型...

苏州大学从头训练的双语非对称Encoder-Decoder模型OpenBA已正式开源!主要亮点包括:亮点一:此模型为中文开源社区贡献了一个有代表性的编码器解码器大语言模型,其训练过程(包括数据收集与清洗、模型构建与训练)已完全开源。亮点二:数据方面,OpenBA所使用的数据均公开可获取,模型的能力产生更加透明。亮点三:针对中文instruction能力,我们基于开源的标注数据构建了大规模中文Fla...

2023-09-20 17:53:48 51

原创 Meta | 对比解码:进一步提升LLM推理能力

深度学习自然语言处理 原创作者:wkk为了改进LLM的推理能力,University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM的推理能力。让我们走进论文一探究竟吧!论文:Contrastive Decoding Improves Reasoning in Large Languag...

2023-09-20 17:53:48 67

原创 TextBind:在开放世界中多轮交织的多模态指令跟随

论文:TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild地址:https://arxiv.org/abs/2309.08637进NLP群—>加入NLP交流群摘要拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性,能够应对各种现实世界任务。...

2023-09-19 15:59:10 48

转载 Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调

来自:NLP工程化进NLP群—>加入NLP交流群  文本是参考文献[1]的中文翻译,主要讲解了Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调的过程。项目GitHub链接为https://github.com/iamarunbrahma/finetuned-qlora-falcon7b-medical,如下所示:  使用领域适应技术对预训练LLM进行微调可以提高在特...

2023-09-19 15:59:10 22

转载 新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学

来自:量子位进NLP群—>加入NLP交流群多模态大模型家族,又有新成员了!不仅能将多张图像与文本结合分析,还能处理视频中的时空关系。这款免费开源的模型,在MMbench和MME榜单同时登顶,目前浮动排名也保持在前三位。△MMBench榜单,MMBench是上海AI lab和南洋理工大学联合推出的基于ChatGPT的全方位多模能力评测体系△MME榜单,MME为腾讯优图实验室联合厦门大学开展的多...

2023-09-19 15:59:10 38

原创 从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLM

作者:养生的控制人链接:https://zhuanlan.zhihu.com/p/656758138今天分享一篇博客,介绍语言模型的训练和推理,通俗易懂且抓住本质核心,强烈推荐阅读。标题:Language Model Training and Inference: From Concept to Code作者:CAMERON R. WOLFE原文:https://cameronrwolfe.sub...

2023-09-19 15:59:10 32

转载 人大:大模型综述9月最新升级

来自:RUC AI Box进NLP群—>加入NLP交流群今年3月末,我们在arXiv网站发布了大语言模型综述文章《A Survey of Large Language Models》的第一个版本V1,该综述文章系统性地梳理了大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了广泛关注,收到了不少读者的宝贵意见。在发布V1版本后的5个月时间内,为了提升...

2023-09-18 17:27:12 41

原创 Medusa: 简单高效地解决LLM的生成延迟

深度学习自然语言处理 原创作者:Winnie今天为大家介绍一个新技术—Medusa,它旨在加速大型语言模型(LLM)的生成。尽管其设计简单,但 Medusa能够将LLM的生成效率提高约2倍。让我们看看它是怎么做到的吧!Blog: Medusa: Simple Framework for Accelerating LLM Generation with Multiple Decoding Heads...

2023-09-18 17:27:12 59

转载 个人的选择与历史的进程

今天看到华为天才少年李博杰的分享,讲述了自己从初中、高中、大学、MSRA、华为等一路选择的心路历程,以及个人的选择和历史进程之间的奇妙关系,相信对于迷茫中的你会有莫大的帮助。作者:李博杰链接:https://zhuanlan.zhihu.com/p/647970514进NLP群—>加入NLP交流群近日,几位好友找我聊起他们的选择。“一个人的命运啊,当然要靠自我奋斗,但是也要考虑到历史的进程”...

2023-09-18 17:27:12 17

转载 大模型百川2技术报告细节分享

作者:dikw原文: https://zhuanlan.zhihu.com/p/655606405进NLP群—>加入NLP交流群大型语言模型 (LLMs) 在自然语言任务上展现了出色的性能,减少了对大量特征工程的需求。但大多数高效的LLMs主要针对英语或为闭源。本技术报告介绍了Baichuan 2,一个大规模多语言模型系列,包含70亿和130亿参数,基于2.6万亿tokens从零开始训练。B...

2023-09-15 16:29:42 115

原创 七个LLM的狼人杀之夜

深度学习自然语言处理 原创作者:Winnie在最新一篇论文中,研究团队让一群大语言模型(LLM)开了一局狼人杀游戏。通过多种Prompt方法集成,LLM不仅成功地参与了游戏,还涌现出了信任、欺诈和领导力等团体能力。Paper: Exploring Large Language Models for Communication Games: An Empirical Study on Werewol...

2023-09-15 16:29:42 94

转载 大模型训练为什么用A100不用4090

作者:李博杰链接:https://zhuanlan.zhihu.com/p/655402388进NLP群—>加入NLP交流群这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。H100A1004...

2023-09-14 19:13:24 126

转载 字节跳动李航:AI for Science的一些探索和进展

来自:机器之心作者:ByteDance Research负责人李航进NLP群—>加入NLP交流群近年,人工智能的各个领域,包括自然语言处理、计算机视觉、语音处理,借助深度学习的强大威力,都取得了令人叹为观止的巨大进步。将深度学习技术应用于传统的科学领域,如物理、化学、生物、医学,即所谓的 AI for Science(科学智能),作为一个新的交叉学科,也逐渐兴起,孕育着巨大的潜力,受到广泛的...

2023-09-12 12:20:24 29

原创 开源大模型FLM-101B:训练成本最低的超100B参数大模型

深度学习自然语言处理 原创作者:Winnie大语言模型(LLM)在诸多领域都取得了瞩目的成就,然而,也存在两个主要的挑战:训练成本极高,通常只有少数几家大公司才能负担得起。现行的评估基准主要依赖知识评估(如MMLU和C-Eval)以及NLP任务评估,但这种方式存在局限性,并且容易受到数据污染的影响。近期,一支来自中国的研究团队正是针对这些问题提出了解决方案,他们推出了FLM-101B模型及其配套的...

2023-09-12 12:20:24 97

转载 NAACL 2024 征稿通知

来自:HFL实验室进NLP群—>加入NLP交流群NAACL 2024将于2024年6月16日至21日在墨西哥召开。NAACL 2024邀请提交关于计算语言学和自然语言处理各方面的长、短论文,这些论文应具有实质性的、原创的且未发表的研究内容。NAACL 2024只接收ARR系统的投稿。官方链接:https://2024.naacl.org/重要时间以下时间均为UTC-12 11:59PM。匿名...

2023-09-12 12:20:24 191

转载 LLaMA微调显存需求减半,清华提出4比特优化器

来自:机器之心进NLP群—>加入NLP交流群大模型的训练和微调对显存要求很高,优化器状态是显存主要开销之一。近日,清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比特优化器,节省了模型训练的内存开销,同时能达到与全精度优化器相当的准确率。4 比特优化器在众多预训练和微调任务上进行了实验,在保持准确率无损的情况下可将微调 LLaMA-7B 的显存开销降低多达 57%。论文:https:/...

2023-09-11 15:57:14 30

转载 如何更好地继续预训练(Continue PreTraining)

来自:NLP工作站进NLP群—>加入NLP交流群写在前面预训练(Pretraining)是一个非常消耗资源的工作,尤其在 LLM 时代。随着LLama2的开源,越来越多人都开始尝试在这个强大的英文基座模型上进行中文增强。但,我们如何才能保证模型在既学到「中文知识」的情况下,又不丢掉原有的「英文知识」呢?今天给大家带来一篇 Continue Pretraining 的论文(来自何枝大佬,知乎@...

2023-09-11 15:57:14 44

转载 基于多模态学习的虚假新闻检测研究

来自:专知进NLP群—>加入NLP交流群社交媒体在给人们带来便利的同时,也成为虚假新闻恣意传播的渠道,如果不及时发现遏止,极易引发群众恐慌,激起社会动荡。因此,探索准确高效的虚假新闻检测技术具有极高的理论价值和现实意义。本文对虚假新闻相关检测技术做了全面综述。首先,对多模态虚假新闻的相关概念进行了整理和归纳,并分析了单模态和多模态新闻数据集的变化趋势。其次,介绍了基于机器学习和深度学习的...

2023-09-11 15:57:14 69

原创 大模型知道自己“不知道”哪些知识吗?

知乎:何枝链接:https://zhuanlan.zhihu.com/p/655152338进NLP群—>加入NLP交流群幻觉(Hallucination)一直大模型比较头疼的问题,为了探索大模型有没有可能知道自己「知道哪些知识」,「不知道哪些知识」,我们进行了一次尝试实验。一种说法是,大模型的「幻觉」来自预训练和SFT时,我们总是在「鼓励模型说答案」,但我们并不确定「这些答案模型是否真的知...

2023-09-10 12:10:45 50

原创 OPRO:利用LLM作为优化器,解决一系列用自然语言描述的任务

深度学习自然语言处理 原创作者:Winnie前言Google的最新一项研究提出了OPRO优化方法(Optimization by PROmpting),它利用LLM作为优化器,解决一系列用自然语言描述的任务,包括线性回归、旅行商问题(TSP)问题等。让我们来看看是如何做到的吧!Paper: Large Language Models as Optimizers Link: https://arxi...

2023-09-10 12:10:45 151

原创 RLAIF:一个不依赖人工的RLHF替代方案

深度学习自然语言处理 原创作者:WinnieLLM可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比RLHF和RLAIF的性能。今天,我们为大家带来一项Google最新的研究,来看看LLM是否懂得人类的偏好。Paper: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedba...

2023-09-08 16:03:17 118

转载 万字长文: 检索增强 LLM

来自:AI思维单车ChatGPT 的出现,让我们看到了大语言模型 ( Large Language Model, LLM ) 在语言和代码理解、人类指令遵循、基本推理等多方面的能力,但幻觉问题 Hallucinations[1] 仍然是当前大语言模型面临的一个重要挑战。简单来说,幻觉问题是指 LLM 生成不正确、荒谬或者与事实不符的结果。此外,数据新鲜度 ( Data Freshness ) 也是...

2023-09-08 16:03:17 65

转载 大模型外挂知识库优化-大模型辅助向量召回

来自:NLP工作站进NLP群—>加入NLP交流群写在前面大模型时代,通常采用向量召回的方式从文档库里召回和用户问题相关的文档片段,输入到LLM中来增强模型回答质量。但是很多时候,用户的问题是十分口语化的,描述的也比较模糊,这样会影响向量召回的质量,进而影响模型回答效果。今天给大家带来一篇来自战士金大佬(@知乎战士金)的博文-大模型辅助向量召回。接下来分享两篇通过大模型的能力增强召回效果的文章...

2023-09-08 16:03:17 116

转载 NLP七十年!斯坦福教授Manning长文梳理:十年后的基础模型能成AGI吗?

来自:新智元进NLP群—>加入NLP交流群【新智元导读】从手工规则、神经网络到Transformer基础模型,自然语言处理的未来是统一多模态,走向通用人工智能!过去十年间,仅靠简单的神经网络计算,以及大规模的训练数据支持,自然语言处理领域取得了相当大的突破,由此训练得到的预训练语言模型,如BERT、GPT-3等模型都提供了强大的通用语言理解、生成和推理能力。前段时间,斯坦福大学大学教授Chr...

2023-09-07 12:44:23 23

原创 YaRN:一种高效RoPE扩展方法,可推理更长上下文并达到SOTA

深度学习自然语言处理 原创作者:qazw论文:YaRN: Efficient Context Window Extension of Large Language Models地址:https://arxiv.org/abs/2309.00071代码:https://github.com/jquesnelle/yarn进NLP群—>加入NLP交流群摘要旋转位置编码(RoPE)已被证明可以有效...

2023-09-07 12:44:23 100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除