在文章的最后是大模型知识体系图
什么是AI大模型?
大模型全称:大语言模型,英文:Large Language Model,简称:LLM
用白话来说就是:
AI就是深度学习了我们人类的大量知识,我们去用人类历史积累的知识去训练AI,也就是教AI学习。它学会之后,就可以帮助我们解决问题,训练好一个大模型,开源之后,所有人都可以使用,就像现在非常牛的GPT_4o,当然很有很多模型,我们国内阿里的同义千问,百度的问心一言,如果你是名程序员,我相信你现在肯定和目前市面的AI模型对话过,并且利用AI解决过你的问题,例如:让他帮你排查bug,让它给你写代码的思路。
AI大模型指的是拥有非常大量参数和复杂架构的机器学习模型,通常利用深度学习技术。这些模型的规模可以达到数十亿甚至上万亿参数。正因为它学习了这么多数据,我们对它提问的问题才可以得到有效的回答。
它能做什么?
我是程序员它可以帮我排查bug,解决项目中的问题。
我是做图片相关的,它可以高质量图像生成,生成真实感强的图片,包括自然景物、人脸、物品等。
我是做数据处理的,它可以帮我对数据进行分类总结...
我是做设计师,它可以给我提供设计思路。
AI大模型能做的很多很多
市面的AI大模型
下面知识例举几个,还有很多大模型。
美国的需要通道才可以访问。
国家 | 产品 | 大模型 | 访问地址 |
---|---|---|---|
美国 | OpenAI ChatGPT | GPT-3.5、GPT-4 | https://chat.openai.com/ |
美国 | Microsoft Copilot | GPT-4 和未知 | 搜索 Microsoft Copilot: 你的日常 AI 助手 |
美国 | Google Bard | PaLM 和 Gemini | https://bard.google.com/ |
中国 | 百度文心一言 | 文心 | 文心一言 |
中国 | 讯飞星火 | 星火 | 讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞 |
下面例举几个使用的例子
大家也可以去使用下,下面是使用GPT_4o模型举例:
我想让它帮我处理一段文本,我的问题是:
请你提取下面这段文本的数字和汉字,进行分离
(在2023年的中国科技展览会上,最引人注目的当属人工智能技术的最新应用。许多企业展示了他们在AI领域取得的突破性成果。例如,一家公司展示了他们最新开发的智能家居系统,该系统可以通过语音指令来控制家中的各种电器设备,包括电视、空调、灯光等。此外,还有企业展示了他们在自动驾驶技术上的进展。例如,某汽车制造商推出了一款全新车型,该车型配备了最新的自动驾驶系统,可以实现L4级别的自动驾驶。这意味着在特定条件下,驾驶员可以完全脱手,让车辆自行驾驶。 除此之外,医疗领域的人工智能成果也备受关注。某医疗设备公司展示了一款基于人工智能的诊断系统,该系统能够通过分析患者的医疗数据,提供准确的诊断建议。这一系统的推出,有望大大提高医疗诊断的准确性和效率。 在教育领域,2023年的AI技术也带来了新的突破。某教育科技公司展示了一款智能学习平台,该平台能够根据学生的学习情况,个性化地推荐学习内容和学习方法。这不仅有助于提高学习效果,还能让学生更加高效地利用时间。 最后,数字货币在2023年也得到了广泛应用。政府部门推出了一种新的数字货币,2023年以来,这种货币迅速在全国范围内推广应用。很多人开始使用2023版的数字货币进行日常购物和线上支付,极大地方便了人们的生活。 总之,2023年是科技飞速发展的一年,人工智能、自动驾驶、医疗诊断、教育科技和数字货币等领域都取得了显著的进步。这些技术将继续改变我们的生活,让未来更加美好。)
大模型是怎么生成结果的
使用白话讲就是:根据提问的问题上下文情况,去猜生成的下一个词的概率。
这个可以直接随便找个模型,去问一半的话,比如:今天吃,可以重复问几次,它回复的结果肯定是不一样的。
就是根据上面文,对下一个词进行生成,生成时的下一个词是有概率的,概率高的就会匹配到结果中,然后在根据结果生成下一个词,直接匹配结束,这个结束是根据生成的字符,假如限制100字,到100字就结束了,还有是特殊标记,匹配到训练时加入的特殊标题,也会停止生成,还有是根据上面文,语法和判断,大模型自己就知道什么时候结束。
OpenAI 的接口名就叫completion,说明他就是一个生成式模型。当然生成的前后肯定会经过很多步骤:
- 输入处理: 模型将这个问题标记化,转化为一系列的标记ID。
- 上下文编码: 通过模型的多层神经网络结构处理这些标记ID,并生成相应的隐藏状态。
- 生成策略: 使用一种生成策略,逐字逐句地产生回答,直到达到预定的结束条件。
- 输出解码: 将生成的标记序列解码回自然语言,形成最终的文本回答。
这套生成机制的内核是Transformer结构,但目前Transformer已经不是最先进的了。
架构 | 设计者 | 特点 | 链接 |
---|---|---|---|
Transformer | 最流行,几乎所有大模型都用它 | OpenAI 的代码 | |
RWKV | PENG Bo | 可并行训练,推理性能极佳,适合在端侧使用 | 官网、RWKV 5 训练代码 |
Mamba | CMU & Princeton University | 性能更佳,尤其适合长文本生成 | GitHub |
大模型应用架构
大模型技术分为两个部分,特点是:入门很简单,门槛很低,但是天花板特别高。
第一是训练基础大模型,这个部分全世界需要的人数特别少,因为世界也没多少个模型,需要的人数就那么多,岗位数非常少,世界应该也不会超过一千个。
第二是建造大模型应用,这个只要学习,大家都可以去建造一个大模型应用。
AI Embedded是在项目的某个节点使用AI,解决小问题。
AI Copilot是在项目的大部分节点使用AI,解决项目中的大部分问题。
AI Agent是将项目完全托管给AI,我们只需要提需求,剩下的交给AI执行,目前这个还未实现,未来可能实现。
技术架构
纯Prompt
这个架构就是,我问一句,你答一句,我在问,你在答。
Ageng+Funation Calling
Agent:主动提出要求
function calling:AI要求执行某个函数
举例:你问过年去哪玩,ta 先反问你有几天假
RAG=Embeddings+向量数据库
Embeddings:把文字转换为更易于计算的编码。这种编码就是向量。
向量数据库:存储向量的东西,将向量存储起来,方便查找。
向量搜索:根据输入的向量,查询相似的向量。
举例:某个东西不会,我去百度搜索(这个就相当于查询向量数据库),找到后结合为自己的答案,就没了,忘记了。
Fine-tuning
他可以长期记住答案,直接返回结果,不用在查询向量数据库了,但是有时候的实时数据,还是需要查询外部数据,调用外部API。例如:现在是几点了,因为Fine-tuning记住的是之前的结果。
编程调用OpenAI
官方文档:https://platform.openai.com/docs/api-reference
安装 OpenAI Python 库
在命令行执行:
pip install --upgrade openai
发一条消息
import openai
import os
# 加载 .env 文件到环境变量
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())
# 初始化 OpenAI 服务。会自动从环境变量加载 OPENAI_API_KEY 和 OPENAI_BASE_URL
client = OpenAI()
# 消息格式
messages = [
{
"role": "system",
"content": "你是AI助手小瓜,是 AGI 课堂的助教。这门课每周二、四上课。"
},
{
"role": "user",
"content": "哪天有课?"
},
]
# 调用 GPT-3.5
chat_completion = client.chat.completions.create(
model="gpt-3.5-turbo",
messages=messages
)
# 输出回复
print(chat_completion.choices[0].message.content)
放一张大模型知识体系图
在这个知识体系图中找到自己的位置。