DIY的AI如何用,你知道吗?

一、开源AI大语言模型

目前开源的AI大语言模型(LLM)已经非常的多了,以下是收集的一些LLM:

LLaMA(Large Language Model Meta AI):LLaMA是由MetaAI的Facebook人工智能实验室(FAIR)发布的开放使用的预训练语言模型。它在2022年11月到2023年2月之间训练。LLaMA的工作原理类似于其他大型语言模型,它将一连串的单词作为输入,并预测下一个单词,以递归地生成文本。

2023-06-26日上传至github,目前51.3k star

以下主要介绍如何使用ollama安装的AI模型及对大语言模型的微调:

二、使用方式

1、命令行

2、REST API

curl http://localhost:11434/api/generate -d '{
  "model": "gemma:2b",
  "prompt":"who are you?"
}'

postman调用

3、图形界面

Open WebUI(原Ollama WebUI):这是一个用于聊天交互的用户友好的 Web 界面。它从 ChatGPT 中汲取友好的聊天界面,支持 Docker 或 Kubernetes 安装,还可以在不同聊天模型之间无缝切换,实现多样化交互.

LibreChat:LibreChat 是一个开源的 AI 通讯平台,它在 ChatGPT 的基础上添加了功能和增强性能。LibreChat 允许用户在选择不同的大型语言模型时切换,支持多种功能,包括编辑模型内部设置、搜索和过滤功能,以及插件系统。

HTML UI:HTML UI 是一个适合开发者练手的 Web UI 项目,包含了多个响应式、现代化的界面模板,适用于练习 HTML、CSS 和 JavaScript。

Chatbot UI:Chatbot UI 是一个高级聊天机器人工具包,基于 OpenAI 的聊天模型,支持多种功能,如响应式设计、代码语法高亮、Markdown、RAG 集成等。

以下是ollama列举的相关项目:

这里选择Open WebUI,直接通过docker安装

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://localhost:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

如果webui与llama不在同一台机器上,这里的OLLAMA_BASE_URL要使用远程地址。但ollama默认是通过localhost访问的,所以在windows需要通过环境变量更改绑定地址。

OLLAMA_HOST       0.0.0.0:11434

重启ollama就可以远程访问

ollama serve

随便注册一个账号

登录后就可以使用

界面与chatgpt差不多

三、模型微调

对于开源大语言模型基本通过安装、下载大语言模型、安装Web UI等步骤基本就可以使用了,如果想集成到自己的业务中去可以使用API的方式调用。当然想更进一步让大语言模型更贴切自己的业务的话,就需要对大语言模型进行微调,把自己的业务数据给大语言模型进行训练。

LLM的微调是在预训练模型的基础上进一步将预训练模型在较小、特定数据集上进一步训练的过程,以使其更好地适应特定的任务或数据集。预训练模型通常是在大规模的通用数据集上训练得到的,它们能够捕捉到语言的一般性特征和模式。然而,这些模型可能并不完全适应特定的应用和业务场景,因此需要通过微调来优化模型的表现。

以下是微调大型预训练语言模型的技术:

  • 微软LORA

LoRA(Low-Rank Adaptation)是一种用于微调大型语言模型(LLM)的技术,它旨在通过参数高效的方式提高模型的适应性和性能。这种技术最初由微软的研究人员提出,并在论文《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》中进行了详细介绍。LoRA的核心思想是在不改变预训练模型权重的前提下,通过在模型的每一层注入可训练的低秩矩阵来实现微调,从而显著减少所需的训练参数数量和计算资源。

  • 谷歌Prompt Tuning

Prompt Tuning 是一种新兴的大模型微调技术,它通过在预训练模型的基础上添加可学习的提示(Prompt)来调整模型的输出,从而适应特定的任务。这种方法的核心思想是利用预训练模型的强大语义理解能力,并通过少量的参数更新来实现对模型的微调。

  • 华盛顿大学QLoRA

QLoRA是一种新的微调大型语言模型(LLM)的方法,能够在节省内存的同时保持速度。其工作原理是首先将LLM进行4位量化,从而显著减少模型的内存占用,然后使用低阶适配器(LoRA)方法对量化的LLM进行微调。

  • 清华大学P-tuning v2

P-Tuning v2 是一种高效的微调方法,用于在保持性能的同时减少内存使用。它的核心思想是将预训练的大型语言模型(LLM)量化为4位,并添加一小组可学习的低秩适配器权重。通过冻结的、4位量化的预训练语言模型反向传播梯度到低秩适配器(LoRA)来实现微调。这种方法使得在单个48GB的GPU上微调拥有650亿参数的模型成为可能,同时保持16位微调任务的性能。P-Tuning v2 引入了多项创新来在不牺牲性能的情况下节省内存,例如4位NormalFloat(NF4)数据类型、双重量化和分页优化器。该方法使得微调大型语言模型变得更加可行,降低了资源门槛。

另外也有类似阿里PAI这种一站式的SAAS平台,还仅可以微调还提供部署等功能 。

  • 阿里云PAI

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

  • 腾讯云TI-ONE

TI-ONE 训练平台(以下简称TI-ONE)是为 AI 工程师打造的一站式机器学习平台,为用户提供从数据接入、模型训练、模型管理到模型服务的全流程开发支持。TI-ONE 支持多种训练方式和算法框架,满足不同 AI 应用场景的需求。

  • 12
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

栈江湖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值