- 博客(290)
- 资源 (8)
- 收藏
- 关注
原创 OpenAI模型规范概览
这是OpenAI对外分享的模型规范文档(Model Spec),它定义了OpenAI希望在API接口和ChatGPT(含GPT系列产品)中模型的行为方式,这也是OpenAI超级对齐团队奉行的行为准则,希望能对国内做RLHF的同学有帮助。
2024-06-07 19:10:00 1102
原创 强烈推荐|分享6款小而美的图片美化工具
给大家分享6个我日常用到的图片美化软件,都是免费且好用的,如果大家觉得有用,求一个点赞+收藏,如果点赞+收藏超过60,后续我会继续分享,谢谢大家~
2024-06-02 15:36:34 284
原创 大模型训练十诫
Google 在线文件 Ten Commandments To deploy fine-tuned models in prod,总结了大模型训练的十条戒律,提供了一些指导原则和建议。
2024-05-30 17:03:52 328
原创 聊聊最近很火的混合专家模型(MoE)
MoE架构的核心思想是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。这些专家网络专注于解决特定类型的问题,通过组合各自的输出来提供最终的解决方案,提高模型的整体性能和效率。
2024-05-29 15:32:24 2178
原创 Cyber Weekly #7
本周是AI圈最热闹的一周,也是AI应用大规模爆发的前夜。赛博周刊 (Cyber Weekly),每周发布,欢迎关注、点赞、收藏、评论。
2024-05-19 23:55:08 951
原创 分享一篇关于AGI的短文:苦涩的教训
回顾学习强化学习之父、加拿大计算机科学家理查德·萨顿( Richard S. Sutton )2019年的经典文章《The Bitter Lesson(苦涩的教训)》。
2024-05-04 07:44:18 995
原创 五一特供|张一鸣:延迟满足,也是一种长期主义
张一鸣一直提倡要延迟满足,是一个不折不扣的长期主义者,但是字节旗下的产品抖音(tiktok)、今日头条都深谙人性的弱点,把娱乐至死最大化,真是有点讽刺。
2024-05-01 16:08:26 1121
原创 做大模型产品,如何设计prompt?
做GenAI产品,除了要设计好的AI任务流程,合理的拆分业务以外,最重要的就是写好prompt,管理好prompt,持续迭代prompt。
2024-04-24 17:54:48 1256
转载 19类AI Agent框架调研(下)
由于篇幅原因,文章分为上、下两篇,上篇主要讲Single-Agent框架,有8个;下篇主要讲Multi-Agent框架,有11个;累计共19款AI Agent框架。
2024-04-21 17:51:38 258
转载 19类AI Agent框架调研(上)
由于篇幅原因,文章分为上、下两篇,上篇主要讲Single-Agent框架,有8个;下篇主要讲Multi-Agent框架,有11个;累计共19款AI Agent框架。
2024-04-21 17:46:21 310
原创 大模型微调的几种常见方法
在文章《深入理解大语言模型微调技术》中,我们详细了解大语言模型微调的概念和训练过程,本篇给大家介绍大模型微调常见的7种训练方法。
2024-04-16 20:07:37 4548 2
原创 深入理解大语言模型微调技术
大模型微调,也称为Fine-tuning,是指在已经预训练好的大型语言模型基础上(一般称为“基座模型”),使用特定的数据集进行进一步的训练,让模型适应特定任务或领域。
2024-04-16 19:35:23 3675
原创 AI Agent概念、能力初探
AI Agent无疑是大语言模型当前最热门且最具前景的方向,也是通往AGI的必经之路,下面我们从基本概念和系统能力层面来逐步揭开AI Agent的神秘面纱。
2024-04-13 23:30:08 1731
原创 万字长文|Sam Altman创业手册(下)
本文是Sam Altman在Y Combinator期间给创业者写的Startup Playbook(创业手册),接近1.4w字,由于篇幅原因分为上、中、下3篇,预计累计需要阅读30min,建议大家收藏后在免打扰的环境下使用。
2024-04-12 16:27:14 1179
原创 万字长文|Sam Altman创业手册(中)
本文是Sam Altman在Y Combinator期间给创业者写的Startup Playbook(创业手册),接近1.4w字,由于篇幅原因分为上、中、下3篇,预计累计需要阅读30min,建议大家收藏后在免打扰的环境下使用。
2024-04-12 16:22:15 821
原创 万字长文|Sam Altman创业手册(上)
本文是Sam Altman在Y Combinator期间给创业者写的Startup Playbook(创业手册),接近1.4w字,由于篇幅原因分为上、中、下3篇,预计累计需要阅读30min,建议大家收藏后在免打扰的环境下使用。
2024-04-12 16:16:38 1345
原创 关于AI发展的3种声音:杨植麟 朱啸虎 王小川
回顾近期市场上对于AI未来的看法,杨植麟、朱啸虎和王小川恰恰代表了技术信仰派、市场信仰派和中间派的观点,无论你站哪一方,不妨听听其他声音。
2024-04-11 10:23:24 183
原创 解析大语言模型训练三阶段
大语言模型的训练过程一般包括3个阶段:预训练(Pre-training)、SFT(有监督的微调,Supervised-Finetuning)以及RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback),其中SFT和RLHF不是必须的流程。
2024-04-09 20:47:10 2872
原创 揭秘ChatGPT预训练数据集
自大语言模型引领新一代的AI浪潮之后,对于Open AI发布的GPT系列LLM使用的数据集一直是行业内的谜,我们都知道,随着模型的参数量提升,预训练数据的使用量也同步增加,下面就让我们从相关论文和分析从探索GPT-X大模型的预训练数据集。
2024-04-09 17:46:16 1643
原创 大语言模型RAG vs. 长文本
在学习完大语言模型中最热门的两个概念大语言模型落地的关键技术:RAG和大语言模型上下文窗口初探后,关于RAG和长文本(long-context)的优劣比较引起了广泛的讨论,本文整理了大语言模型RAG vs. 长文本争论的5种类观点。
2024-04-07 14:23:44 2397
原创 大语言模型上下文窗口初探(下)
由于篇幅原因,本文分为上下两篇,上篇主要讲解上下文窗口的概念、在LLM中的重要性,下篇主要讲解长文本能否成为LLM的护城河、国外大厂对长文本的态度。
2024-04-07 12:26:13 1397
原创 大语言模型上下文窗口初探(上)
由于篇幅原因,本文分为上下两篇,上篇主要讲解上下文窗口的概念、在LLM中的重要性,下篇主要讲解长文本能否成为LLM的护城河、国外大厂对长文本的态度。
2024-04-07 12:19:46 2487
原创 大语言模型落地的关键技术:RAG
RAG 是检索增强生成(Retrieval-Augmented Generation)的简称,是当前最火热的大语言模型应用落地的关键技术,主要用于提高语言模型的效果和准确性。
2024-04-06 22:26:01 2479
原创 深度解析GPT中的Tokenizer
继学习完深度解析大语言模型中的词向量后,让我们继续学习大语言模型中另外几个重要概念:token(词元)、tokenization(词元化)、tokenizer(词元生成器)。
2024-04-04 17:46:29 1355 2
原创 深度解析大语言模型中的词向量
在学习完语言模型中的编码器与解码器知识后,让我们继续深入学习大语言模型中一个非常关键的技术:词向量表示,以及如何通过Transformer模型实现对next token的预测。
2024-04-04 16:58:50 2099
原创 语言模型中的编码器与解码器
语言模型主要分为三大类:一是“仅编码器(encoder-only)”组,该类语言模型擅长文本理解,因为它们允许信息在文本的两个方向上流动。二是“仅解码器(decoder-only)”组,该类语言模型擅长文本生成,因为信息只能从文本的左侧向右侧流动,以自回归方式有效生成新词汇。三是“编码器-解码器(encoder-decoder)”组,该类语言模型对上述两种模型进行了结合,用于完成需要理解输入并生成输出的任务,例如翻译。
2024-04-03 23:35:34 1284
改变未来的九大算法
2016-05-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人