ChatGPT及AI大模型学习笔记分享_chatgpt ai模型与算法-CSDN博客

本文链接：https://blog.csdn.net/2301_76161259/article/details/138542356

最初小王跟我分享ChatGPT这一科技动态，我还并未放在心上，谁料与AI大语言模型有关的故事很快就蔓延到了数据领域。目前公司正在与大厂接洽相关业务，研究该领域是我在这一阶段的学习任务。

一、什么是Chatgpt?

ChatGPT是由美国公司OpenAI基于GPT3.5版本开发在2022年11月30日发布的一个人工智能聊天机器人程序，全称“Chat Generative Pre-Trained Transformer”中文是生成型预训练变换模型。能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI，是一款人工智能技术驱动的自然语言处理工具。

ChatGPT，其实是 Chat + GPT，Chat表示这是一个对话模型，GPT代表它是使用Generative Pre-Trained Transformer架构构建的。

Generative指的是该模型可以生成新的内容。

Pre-trained则表示该模型可以在大型语料库中进行预训练，以便更好地理解人类语言。

Transformer则是指一种神经网络架构，它可以处理变长的序列数据，例如自然语言文本。

GPT是一种自然语言生成模型，是以训练数据预训练语言模型的技术。

起名ChatGPT的原因是，这个模型是事先训练过的，专为对话和生成文本而设计，并使用Transformer架构。

ChatGPT的背后离不开大模型，大数据，大算力。与ChatGPT紧密相关的三大领域分别是：代表其核心新技术的AI大模型、代表产品形态的对话机器人、代表产品功能的AIGC(人工智能生成内容)。

未来一些知识或者经验推动的领域，会遇到很大的挑战，例如医生、律师、会计师等等，甚至会冲击到目前的教育体制。

中国一定会有自己的ChatGPT，因为我们有自己的合规要求，就像搜索引擎一样。

二、什么是AIGC?

与ChatGPT紧密相关的三大领域之一：代表产品功能的AIGC(人工智能生成内容)。

AIGC（AI generate content）是生成式AI，指的是利用人工智能技术自动生成内容的过程。

这个过程可以应用在多个领域，例如文本生成、图像生成、音频生成，甚至3D模型和代码。

除了大语言模型，更多的企业也开始关注生成式AI，也即是视频、图文、语言三大领域AI生成的AIGC领域。

三、什么是AI大模型？

与ChatGPT紧密相关的三大领域之一：代表其核心新技术的AI大模型。

AI大模型即基础模型（Foundation Model），是基于海量多源数据打造的模型，通过训练，从大量标记和未标记的数据中捕获知识，并将知识存储到大量的参数中，以实现对各种任务进行高效处理的技术架构，具备通用、可规模化复制等诸多优势，是实现 AGI（通用人工智能）的重要方向。

AI大模型包含自然语言处理(NLP)、计算机视觉（CV）、统一整合的多模态大模型等，ChatGPT 是自然语言处理领域突破性的创新。

大语言模型（LLM全称Large Language Model，简称大模型），是 AI 模型中的一种，是自然语言处理领域内目前最热门的一个概念，使用大量数据训练的深度学习算法，构建出一个能够理解人类语言并自动生成语言的模型。

人们对大模型的探索，远不会停留在类ChatGPT的范畴内。

在ChatGPT崛起之际，中国的AI研究机构和企业加速度扎堆冲入大模型赛道。在全球范围内，人工智能已成为科技创新的核心竞争力之一，大型语言模型代表着AI技术的最前沿。

四、通用大模型和垂直大模型

AI大模型，市场正在分化为通用与垂直两大路径，两者在参数级别、应用场景、商业模式等方面差异正在显性化。

1、通用大模型

通用的AI大模型像ChatGPT，能够处理各种领域和场景的自然语言，但是不一定有深入的专业知识。

通用的AI大模型需要巨大的计算资源和数据量，通用AI大模型已经成为国内外大厂的重点项目，他们有着强大的技术团队和资金支持，而且有着自己的场景和流量优势。

比如百度、阿里、腾讯、字节、华为等，在搜索、社交、电商、办公等领域都有着自己的通用AI大模型。创业者很难在这样的竞争中获得先发优势或者差异化优势。

2、垂直大模型

垂直的AI大模型是针对某个特定领域或者场景，更好地满足用户在某个领域或者场景下的需求和期待比如医疗、金融、教育等，它能够利用行业的数据和知识，提供更精准和高效的解决方案。

垂直的AI大模型可以更容易地获取和处理高质量的数据和知识，因为它们只关注某个特定的领域或者场景，而不是涵盖所有的领域和场景。

这样的模型可以利用一些开源或者闭源的通用AI大模型作为基础，然后在其上进行指令微调（instruction tuning），来适应自己的目标领域或者场景。

它们也可以利用一些私有或者公开的数据和知识，来增强自己的AI大模型的性能和泛化能力。

垂直的AI大模型可以更容易地与用户和行业进行有效的沟通和合作，因为它们更了解用户的需求和场景，也更符合行业的规范和标准。这样的模型可以更好地融入用户的工作流程和生活方式，也可以更好地与行业的其他参与者协同和互补。

不过，垂直大模型往往需要支持私有化部署。由于企业的很多业务数据、物流数据、财务数据等都是非常核心的私域数据，很难把数据拿给别人去训练。

五、AI大模型三要素：算力、算法、数据

1、算力

AI大模型所需要的计算量，大致上相当于参数量与数据量的乘积。大模型之所以“大”，就是因为参数众多和数据量庞大。

过去5年，AI大模型的参数量几乎每年提升一个数量级，例如GPT-4参数量是GPT-3的16倍，达到1.6万亿个；

而随着图像、音视频等多模态数据的引入，大模型的数据量也在飞速膨胀。这意味着想要玩转大模型，必须拥有大算力。

芯片决定算力，当前数据训练需要较高性能的芯片完成对整体模型神经网络的训练构建。

OpenAI测算：2012年开始，全球AI训练所用的计算量平均每3.43个月便会翻一倍，远超摩尔定律。在肉眼可见的未来，算力不足将会是制约AI发展的最大因素。

因此，芯片要做到性能过硬，只有制造出算力极强的高端芯片，才能满足智算时代的计算需求，让云好用，这是基础条件。

算力基础设施的投入阻挡了部分小公司的入局。应用层面只需调用整体大模型里的部分神经网络，故对芯片要求没有训练模型时那么高。

2、算法

三要素中，算法的研发难度相对较低，每家公司都有自己实现大模型的路径算法，且有众多开源项目可作为参考，中国公司最容易缩短甚至抹平差距。

3、数据

高质量的数据是助力AI训练与调优的关键，足够多、足够丰富的数据，是生成式AI大模型的根基。

OpenAI此前披露，为了AI像人类那样流畅交谈，研发人员给GPT-3.5提供多达45TB的文本语料，相当于472万套中国“四大名著”。这些语料的来源包括维基百科、网络文章、书籍期刊等，甚至还将代码开源平台Github纳入其中。

当前中文语料规模与质量上不如英文语料。根据 W3Techs，中文网站占全球网站数1.3%，英文网站占比 63.6%。除此以外，由于中国移动互联网发展较为成熟，大量中文数据资源被存于各家企业或机构里，较难共享。

关注我，分享学习与实践经验，一起成长

人工智能大模型越来越火了，离全民大模型的时代不远了，大模型应用场景非常多，不管是做主业还是副业或者别的都行，技多不压身，我这里有一份全套的大模型学习资料，希望给那些想学习大模型的小伙伴们一点帮助！

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓