GPT
文章平均质量分 86
GPT 和BERT等论文
Ankie(资深技术项目经理)
AI First!20年资深WiFi,BT,UWB技术专家。
展开
-
学习人工智能:GPT-4技术报告2023.3,足以通过各种考试;支持图像输入
我们创建了 GPT-4,这是 OpenAI 在扩展深度学习方面的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟律师考试,分数在考生中排名前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。我们迭代了 6 个月调整GPT-4 使用我们的对抗性测试程序和 ChatGPT 的经验教训,在事实性、可操纵性和拒绝超越护栏方面取得了我们有史以来最好的结果(尽管远原创 2024-03-02 00:30:00 · 833 阅读 · 1 评论 -
论文InstructGPT (2)2022.3 Training language models to follow instructions with human feedback;架构
2020.3 InstructGPT是ChatGPT的前身,openAI从InstructGPT开始探索商业化GPT,本来是外包团队来做强化学习,后来变成全世界人都来给ChatGPT做强化学习。例如:文心一言的结果里面有几个button,好,坏,重新来一个。其实就是告诉模型当前的结果好不好。InstructGPT需要3步:(1) supervised fine-tuning (SFT),(2)reward model (RM) training,(3) reinforcemen原创 2024-05-15 00:02:27 · 630 阅读 · 0 评论 -
论文InstructGPT (1)2022.3 Training language models to follow instructions with human feedback;通过人类反馈微调
2020.5 GPT-3 Language Models are Few-Shot Learners 强调不要做微调,不要做应试。只做few-shot少样本配置,期望达到AGI通用人工智能。然而到了2020.3 InstructGPT,开发方向180度掉头回去做微调!测试结果表明:通过人类反馈微调的效果更好。1.3B参数的InstructGPT模型的参数数量比175B的GPT-3少了100倍,但其输出仍比GPT-3的输出更好。因此我们看出,通往远大目标的路,并非一条直线,而是一个波浪线。原创 2024-05-10 00:01:51 · 1460 阅读 · 0 评论 -
人工智能论文:BERT和GPT, GPT-2, GPT-3 的简明对比和主要区别
BERT使用的是transformer的encoder,双向,专注于完形填空。对于缺失的内容和应试内容比较擅长。GPT使用的是transformer的decoder,单向,专注于预测,因为decoder看不到后面的字符,训练GPT的预测性能。BERT和GPT-1都使用了微调,以应对各种考试。而后期GPT-2,GPT-3抛弃微调,专注于通用人工智能。原创 2024-04-30 00:09:37 · 739 阅读 · 0 评论 -
人工智能论文:GPT, GPT-2, GPT-3 对比和演进的思路
第一篇主要强调 无监督预训练+有监督微调+transformer decoder第二篇接续第一篇的结论,我们进一步强调了无监督学习的重要性,并致力于推动其向通用人工智能的方向发展。通过 scaling law+zero-shot设定,不做微调,不仅仅为了应试目的。第三篇接续第二篇的目标,继续探索通用人工智能的实现路径。我们参考了人类的学习方式,即只需少量示例就能快速适应并执行新的语言任务。GPT-3在这一方向上取得了显著进展,通过进一步提高模型尺寸,并避免繁琐的有监督微调过程,仅通过少量样本配置,便达原创 2024-04-29 22:24:18 · 1126 阅读 · 0 评论 -
人工智能:看看电脑会有多高明,让它下盘围棋吧;深蓝,AlphaGo,ChatGPT,Sora
上世纪《读者》杂志上有篇文章《看看电脑有多聪明,让它下盘围棋吧》,1997年IBM深蓝在一场国际象棋比赛中成功击败了当时的世界冠军,之后读者发表了这篇文章。这才不到20年,AI的发展速度真的是让人咋舌。2024年2月,OpenAI继ChatGPT之后,推出了文字生成视频大模型,目前还没有公开测试,只是展示了几个60秒的样片。深蓝的开发团队使用了一种名为“暴力搜索”的技术,即计算机会评估所有可能的走法,并选择最优的一种。此外,深蓝还利用了一些国际象棋领域的特定知识和规则,以及从以前的比赛中获得的经验和数据。原创 2024-02-21 04:00:00 · 1520 阅读 · 0 评论 -
人工智能几个关键节点:深蓝,AlphaGo,ChatGPT,Sora
近30年,人工智能几个关键节点:深蓝,AlphaGo,ChatGPT,Sora。原创 2024-02-23 00:05:14 · 652 阅读 · 0 评论 -
学习人工智能-3条Python命令,从零开始搭建GPT,minGPT by Andrej karpathy
3条Python命令,从零开始搭建GPT,minGPT by Andrej karpathy。如果你不是深度学习领域的专业人士,只是想感受一下它的魔力并初步尝试,那么最快速的入门方式就是在莎士比亚的作品上训练一个字符级别的GPT模型。首先,我们需要将其下载为一个单独(1MB)的文件,并将原始文本转换为一串大的整数流。生成结果 by CPU。生成结果 by GPU。原创 2024-03-10 00:30:00 · 1224 阅读 · 0 评论 -
论文BERT(4): 2018.10 Pre-training of Deep Bidirectional Transformers for Language Understanding;总结
BERT这一论文的核心观点在于,它巧妙地融合了ELMo的双向性特征和GPT的微调策略。经过一系列实验验证,我们发现这种双向性与微调技术的结合,确实能显著提升模型在各项任务上的表现。更进一步地,当我们通过增加模型的大小来扩展其容量时,模型的性能还能得到进一步的提升。这些发现共同构成了BERT论文的关键论点,展示了其在自然语言处理领域的强大潜力与优势。原创 2024-04-27 00:15:00 · 797 阅读 · 0 评论 -
论文BERT(3): 2018.10 Pre-training of Deep Bidirectional Transformers for Language Understanding;架构
在本节中,我们将介绍BERT及其详细实现。我们的框架包含两个步骤:预训练和微调。在预训练阶段,模型会在不同的预训练任务上针对未标记数据进行训练。在微调阶段,BERT模型首先使用预训练参数进行初始化,然后使用来自下游任务的有标记数据对所有参数进行微调。每个下游任务都有独立的微调模型,尽管它们都是使用相同的预训练参数进行初始化的。原创 2024-04-26 00:09:01 · 766 阅读 · 1 评论 -
论文BERT(2): 2018.10 Pre-training of Deep Bidirectional Transformers for Language Understanding;相关工作
在“相关工作”(Related Work)部分,作者通常会回顾前人在此领域的探索与成果,为后续的讨论奠定坚实的基础。通过梳理之前的研究状态,论文作者通常会提出自己的独特见解和新的研究思路,以推动该领域的进一步发展。1,无监督特征的方法(Unsupervised Feature-based Approaches),我们重点关注了ELMo的工作。这项工作强调了词嵌入预训练的重要性,并且特别指出了双向处理的必要性。通过无监督的方式对词嵌入进行预训练,我们能够获得更为丰富和准确的词表示,为后续的任务提供有力的支原创 2024-04-25 23:41:38 · 901 阅读 · 0 评论 -
论文BERT(1): 2018.10 Pre-training of Deep Bidirectional Transformers for Language Understanding;摘要,引言
GPT v1(2018.6) 使用了transformer效果很好,Google团队看到后,隔了4个月就是2018.10自己做了一个3.5亿(350m)参数的BERT,把榜单统统刷了一遍。GPT v1的参数大概1.1亿(110m),BERT的训练素材更大。GPT使用的是transformer的decoder,专注于预测,因为decoder看不到后面的字符,训练GPT的预测性能。BERT使用的是transformer的encoder,专注于完形填空。对于缺失的内容和应试内容比较擅长。原创 2024-04-24 00:16:27 · 1512 阅读 · 0 评论 -
人工智能论文GPT-3(5):2020.5 Language Models are Few-Shot Learners;总结
随着GPT-3性能的逐步提升,OpenAI愈发重视其社会责任。首先,GPT-3的强大能力也带来了潜在的风险。它能够轻易地生成假新闻、误导性信息、垃圾邮件、网络钓鱼内容,甚至可能滥用法律和政府流程、进行欺诈性学术论文写作以及实施社会工程学伪装等,这些都可能给社会带来不良影响。其次,由于GPT-3是基于无监督学习的,它会在处理大量文本时提取客观的权重。然而,这些权重有时可能反映出某些不公平的偏见,比如性别歧视、种族歧视或对特定信仰的偏见等。这需要我们投入更多的工作来识别和纠正这些潜在问题。最后,功耗原创 2024-04-23 00:12:31 · 742 阅读 · 0 评论 -
人工智能论文GPT-3(4):2020.5 Language Models are Few-Shot Learners;结果;局限性;结果报告而非论文
随着时间的推移,OpenAI似乎逐渐走向封闭而非开放。GPT-3的论文,本质上更像是一份结果报告,其中详尽地罗列了各类测试结果。鉴于篇幅所限,我便不再一一赘述。原创 2024-04-22 00:15:00 · 887 阅读 · 0 评论 -
人工智能论文GPT-3(3):2020.5 Language Models are Few-Shot Learners;架构;训练数据集;开源
自GPT-3问世以来,OpenAI对于其技术实现的细节采取了相当谨慎的态度,仅仅以大致的框架进行了介绍。随着时间的推移,OpenAI似乎变得更为封闭而非开放,这也正是马斯克对OpenAI提出批评的核心所在。现在,我们普遍认识到,虽然许多模型都基于Transformer架构,但各家在应用上的方法却大相径庭。在这场竞赛中,OpenAI已经取得了显著的领先地位,其他公司只能奋力追赶。面对这种压力,一些公司甚至选择开源他们的技术,希望借助群众的力量共同对抗OpenAI。或许在未来的某一天,OpenAI会公开原创 2024-04-21 00:18:01 · 804 阅读 · 0 评论 -
人工智能论文GPT-3(2):2020.5 Language Models are Few-Shot Learners;微调;少样本Few-Shot (FS)
GPT-3论文标题明确指出:“Language Models are Few-Shot Learners”,这揭示了GPT-3模型采用了少样本(few-shot)学习模式,而非传统的微调模式。GPT-3致力于实现通用人工智能的目标,因此它选择了少样本模式进行推理,而不是仅仅通过微调来应试。在少样本模式下,模型接收任务的几个演示作为条件输入,但不进行权重更新,从而保持其通用性和灵活性。然而,少样本模式也存在一些局限性。相比于微调模式,它在应对特定任务时的应试能力可能稍逊一筹。这是因为微调模式允许模型针对特原创 2024-04-20 00:28:52 · 1557 阅读 · 1 评论 -
人工智能论文GPT-3(1):2020.5 Language Models are Few-Shot Learners;摘要;引言;scaling-law
1,2019年2月,OpenAI推出了GPT-2,仅仅时隔一年三个月,即2020年5月,他们又发布了GPT-3,这一创新成果正式点燃了整个AI行业的热情。先前的GPT-2、Bert等模型虽然在专业领域的应试得分尚算不错,但它们的通用能力却相对有限,可以说是较为“智障”。然而,GPT-3的出现彻底改变了这一局面,它具备了与人类进行基本自然语言理解的能力。2,GPT-3的模型跟GPT-2一样,其核心在于训练参数的显著提升。GPT-2拥有1.5B的训练参数,而GPT-3则高达175B,整体提升幅度超过100倍原创 2024-04-19 00:56:33 · 1480 阅读 · 2 评论 -
人工智能论文GPT-2(4):2019.2 Language Models are Unsupervised Multitask Learners;讨论;结论
1,GPTv2在足够大且多样的数据集上进行训练时,它能够在多个领域和数据集上表现出色。2,GPTv2在零样本设置下,专业性能依然强大。通用性能强3,继续加强无监督学习。原创 2024-04-18 00:15:00 · 979 阅读 · 0 评论 -
人工智能论文GPT-2(3):2019.2 Language Models are Unsupervised Multitask Learners;实验结果;
1,2018.10 Google的BERT性能超过了GPT v1,OpenAI准备了4组GPT v2的配置与其对比:最小的模型与原始GPT相当,110M第二小的模型与BERT中最大的模型相当,345M。最大的模型为GPT-2,它的参数数量比GPT多出一个数量级。1542M测试结果表明:参数越大,性能越高。这也就是所谓的scaling law。军备竞赛一发不可收拾。2,OpenAI目标清楚:想做通用人工智能。希望不要仅仅在那几个专业赛道卷。因此GPT v2模型训练好了之后,直接测试各种项目,结果原创 2024-04-17 00:15:00 · 744 阅读 · 0 评论 -
人工智能论文GPT-2(2):2019.2 Language Models are Unsupervised Multitask Learners;方法;训练数据集;输入表示
1,在GPT v1的架构里面,3.2 有监督微调和 3.3 针对特定任务的输入转换 特别介绍了针对不同应用做不同的微调。而在GPT v2希望避免这类工作,让模型可以更加通用。因此直接准备了更大的数据集,这些数据集已经包含了各种应用,比如 英法翻译,阅读理解等等。让模型自行无监督学习,实现通用语言理解能力。2,在输入表示方面,GPT v2使用了介于单词和字节之间的,改进的Byte Pair Encoding字节对编码(BPE)。3,改进了transformer的结构,来适配GPT v2原创 2024-04-16 00:15:00 · 816 阅读 · 0 评论 -
人工智能论文GPT-2(1):2019.2 Language Models are Unsupervised Multitask Learners;摘要;引言;增强通用能力,而不是特定应试能力
1, GPT v2的背景是:GPT v1(2018.6) 使用了transformer效果很好,Google团队看到后,隔了4个月就是2018.10自己做了一个3.5亿(350m)参数的BERT,把榜单统统刷了一遍。GPT v1的参数大概1.1亿(110m),BERT的训练素材更大。又隔了4个月,GPT v2(2019.2)直接把训练参数提高到了15亿(1.5B),5倍于BERT,正式拉开军备竞赛。2,GPT v2想解决的问题是:加强无监督学习,让模型更智能,更容易泛华。增强通用能力,而不是特定应试原创 2024-04-15 00:06:13 · 905 阅读 · 0 评论 -
人工智能论文GPT v1(3):2018.6 Improving Language Understanding by Generative Pre-Training;分析;结论;顺势而为,推动趋势;
1,GPT v1通过实验证明了transformer模型要比之前的LSTM(例如 RNN等)都要好。换句话说OpenAI 恰逢其时,当时尝试各种模型,刚好transformer出现,openAI慧眼识珠,选中了这匹好马,大大提高了性能。类比一下乔布斯放弃flash。每种技术都有他的生命周期,很幸运的是,OpenAI选中了transformer这项朝阳技术,并推动transformer发扬光大。2,GPT v1引入了一个框架,通过生成式预训练和判别式微调,使用单个与任务无关的模型实现强大的自然语言理解原创 2024-04-14 00:15:00 · 736 阅读 · 0 评论 -
人工智能论文GPT v1(2):2018.6 Improving Language Understanding by Generative Pre-Training;架构;实验
1,本篇介绍了框架和各种任务的实现。2,GPT只使用了transformer的解码器,不用编码器。12层768维状态和12个注意力头3,各种结果对比。原创 2024-04-13 00:15:00 · 541 阅读 · 2 评论 -
人工智能论文GPT v1(1):2018.6 Improving Language Understanding by Generative Pre-Training;摘要;引言
1, 2017.6 Google deepmind team发布了transformer “attention is all you need”。一年之后2018.6 OpenAI率先选择transformer模型进行训练并正式发布了GPT-1,获得了很好的结果。这给后续的创新带来了新的思路,特别后来的BERT等,进一步提高了性能。2,今天重新看GPT-1这篇论文,我们可以看出,长城筑成非一日之功,也是逐步提高。3,虽然这篇文章本身有点过时2018.6了,跟GPT后面的实现有点不同,但是我们着重要看原创 2024-04-12 00:07:31 · 958 阅读 · 0 评论