![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型学习
文章平均质量分 86
Andy_shenzl
你看不懂的世界,背后都是原理
展开
-
GLM-4-9B 支持 Ollama 部署
它提供了一个简单而高效的接口,用于创建、运行和管理这些模型,同时还提供了一个丰富的预构建模型库,可以轻松集成到各种应用程序中。通过Ollama,用户可以方便地部署和运行GLM-4-9B 等开源的大语言模型。此外,Ollama还提供了包括网页、桌面应用和终端界面在内的多种互动方式,方便用户使用和管理这些模型。在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 在各项能力上均表现出卓越的能力。该模型是在 GLM-4-9B 基础上持续训练的多语言代码生成模型,显著提升了代码生成能力。原创 2024-07-12 11:06:41 · 556 阅读 · 0 评论 -
Windows 部署ollama
一个本地运行大模型的集成框架,目前主要针对主流的LLaMA架构的开源大模型设计,通过将模型权重、配置文件和必要数据封装进由Modelfile定义的包中,从而实现大模型的下载、启动和本地运行的自动化部署及推理流程。此外,Ollama内置了一系列针对大模型运行和推理的优化策略,目前作为一个非常热门的大模型托管平台,已被包括LangChain、Taskweaver等在内的多个热门项目高度集成。原创 2024-07-10 13:53:41 · 350 阅读 · 0 评论 -
7、Qwen-7B 部署实践
Qwen(通义千问)由阿里云团队研发,其训练数据覆盖多语言,但主要以中文和英文为主。Qwen的系列模型主要有两类,一类是基座模型Qwen,所谓基座模型,指的是在海量的数据集上进行预训练,这些数据集可能包含了广泛的主题、语境和样式,使得基座模型能够捕捉到丰富的语言特征和通用知识。另外一类是Chat类模型,是利用SFT和RLHF技术实现对齐,从基座模型训练得到对话模型。目前开源模型的参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。原创 2024-04-01 11:09:45 · 2657 阅读 · 0 评论 -
6、ChatGLM3-6B 部署实践
ChatGLM3 是智谱AI和清华大学 KEG 实验室在2023年10月27日联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,免费下载,免费的商业化使用。性能层面,ChatGLM3-6B在10B范围内性能最强,推理能力直逼GPT-3.5;功能层面,ChatGLM3-6B重磅更新多模态功能、代码解释器功能、联网功能以及Agent优化功能四项核心功能,全线逼近GPT-4!原创 2024-03-27 11:00:21 · 1327 阅读 · 0 评论 -
5. GLM4入门介绍
也就是说,assistant消息和role消息是一一对应的,而且在一般情况下,assistant消息只会围绕messages参数中的最后一个role信息进行回答。system role用于身份设定不过,值得一提的是,user和assistant的这种提问方式尽管足够清晰,但往往形式上不够丰富,例如在实践中人们发现,给聊天机器人进行一个身份设置,其实是非常有效的引导模型创作我们想要的结果的方法,例如如果我们希望获得一个关于“什么是机器学习?原创 2024-03-21 15:08:35 · 3629 阅读 · 0 评论 -
1. OpenAI⼤模型⽣态
语⾔类⼤模型:GPT-3、GPT-3.5、GPT-4系列模型。并且,OpenAI在训练GPT-3的同时,训练了参数不同、复杂度各不相同的A、B、C、D四项⼤模型(基座模型),⽤于不同场景的应⽤;其中,A、B、C、D模型的全称分别是ada、babbage、curie和davinci,四个模型并不是GPT-3的微调模型,⽽是独⽴训练的四个模型;四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增;原创 2024-02-02 16:35:02 · 638 阅读 · 0 评论 -
2. ChatGLM开源⼤模型
ChatGLM模型是由清华⼤学团队开发的⼤语⾔模型,该模型借鉴了ChatGPT 的设计思路,在千亿基座模型 GLM-130B1 中注⼊了代码预训练,通过有监督微调(Supervised FineTuning)等技术实现⼈类意图对⻬。2022年11⽉,斯坦福⼤学⼤模型中⼼对全球30个主流⼤模型进⾏了全⽅位的评测,GLM-130B 是亚洲唯⼀⼊选的⼤模型。通过使⽤与 ChatGLM(chatglm.cn)相同的技术,ChatGLM-6B 初具中⽂问答和对话功能,并⽀持在单张 2080Ti 上进⾏推理使⽤。原创 2024-02-02 17:18:34 · 792 阅读 · 0 评论 -
3. ⼤语⾔模型深度学习背景知识
⼤模型微调指的是“喂”给模型更多信息,对模型的特定功能进⾏“调教”,即通过输⼊特定领域的数据集,让其学习这个领域的知识,从⽽让⼤模型能够更好的完成特定领域的NLP任务,例如情感分析、命名实体识别、⽂本分类、对话聊天等;微调并不是⼤模型领域独有的概念,⽽是伴随着深度学习技术发展,⾃然诞⽣的⼀个技术分⽀,旨在能够有针对性的调整深度学习模型的参数(或者模型结构),从⽽能够使得其更佳⾼效的执⾏某些特定任务,⽽不⽤重复训练模型;原创 2024-02-05 15:50:36 · 1003 阅读 · 0 评论 -
4. ⼤模型微调方法
到底有哪些微调⽅法呢?原创 2024-02-06 09:34:47 · 795 阅读 · 0 评论