大模型
文章平均质量分 79
FL1623863129
计算机应用软件开发,长期致力于研究图像算法,人工智能算法,边缘部署,算法落地研究
展开
-
[大模型]QAnything的docker安装方法
知识库数据量大的场景下两阶段优势非常明显,如果只用一阶段embedding检索,随着数据量增大会出现检索退化的问题,如下图中绿线所示,二阶段rerank重排后能实现准确率稳定增长,即数据越多,效果越好。QAnything使用的检索组件强大的双语和跨语种语义表征能力【基于MTEB的语义表征评测指标基于LlamaIndex的RAG评测,表现SOTA【基于LlamaIndex的RAG评测指标。原创 2024-04-26 06:22:16 · 931 阅读 · 2 评论 -
[大模型]QAnything纯Python环境安装教程
在scripts/run_for_openai_api_with_cpu_in_Linux_or_WSL.sh中补充api-key等参数。在scripts/run_for_openai_api_with_gpu_in_Linux_or_WSL.sh中补充api-key等参数。在scripts/run_for_openai_api_in_M1_mac.sh中补充api-key等参数。或者打开http://{主机ip地址}:8777/qanything/注意末尾的斜杠不可省略,否则会出现404错误。原创 2024-04-26 06:19:32 · 511 阅读 · 0 评论 -
[大模型]基于MaxKB搭建一个知识库问答系统
MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。MaxKB = Max Knowledge Base,旨在成为企业的最强大脑。开箱即用:支持直接上传文档、自动爬取在线文档,支持文本自动拆分、向量化,智能问答交互体验好;无缝嵌入:支持零编码快速嵌入到第三方业务系统;多模型支持:支持对接主流的大模型,包括本地私有大模型(如 Llama 2、Llama 3)、通义千问、OpenAI、Azure OpenAI、Kimi 和百度千帆大模型等。原创 2024-04-26 06:09:54 · 371 阅读 · 0 评论 -
[大模型]TransNormerLLM-7B Lora 微调
LoraConfig这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_type:模型类型:需要训练的模型层的名字,主要就是attention部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。rlora的秩,具体可以看Lora原理lora_alphaLora alaph,具体作用参见Lora原理Lora的缩放是啥嘞?当然不是r(秩),这个缩放就是, 在这个LoraConfig中缩放就是4倍。原创 2024-04-20 06:16:39 · 721 阅读 · 0 评论 -
[大模型]TransNormerLLM-7B WebDemo 部署
在autodl平台中租一个3090/4090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8(11.3版本以上的都可以)接下来打开刚刚租用服务器的JupyterLab, 图像 并且打开其中的终端开始环境配置、模型下载和运行演示。pip换源和安装依赖包。原创 2024-04-20 06:15:39 · 470 阅读 · 0 评论 -
[大模型]TransNormerLLM-7B FastApi 部署调用
TransNormerLLM 是一个基于线性注意力的 LLM,在准确性和效率方面均优于传统的基于 softmax 注意力的模型。它是在包含多达1.4 万亿个令牌的高质量语料库上进行训练的,TransNormerLLM 从之前的线性注意力架构 TransNormer 演变而来,进行了高级修改,包括 LRPE 位置嵌入、闪电注意力加速、新的门控和标准化机制(将在下文进行简要的介绍)。TransNormerLLM 在多项广受认可的中文、英文以及多语言通用和特定领域基准测试中取得了与其规模相当的竞争性表现。原创 2024-04-19 11:22:14 · 744 阅读 · 0 评论 -
[大模型]TransNormerLLM-7B 接入 LangChain 搭建知识库助手
在 autodl 平台中租赁一个 3090/4090 等 24G 显存的显卡机器,如下图所示镜像选择 PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8接下来打开刚刚租用服务器的 JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行 demo。pip 换源加速下载并安装依赖包。原创 2024-04-19 11:20:16 · 345 阅读 · 0 评论 -
[大模型]Qwen-Audio-chat WebDemo 部署
是阿里云研发的大规模音频语言模型(Large Audio Language Model)。Qwen-Audio 可以以多种音频 (包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。原创 2024-04-19 11:19:42 · 372 阅读 · 0 评论 -
[大模型]Qwen-Audio-chat FastApi 部署调用
是阿里云研发的大规模音频语言模型(Large Audio Language Model)。Qwen-Audio 可以以多种音频 (包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。原创 2024-04-19 11:18:51 · 305 阅读 · 0 评论 -
[大模型]Qwen-1_8B-chat CPU 部署
本文介绍了在 Intel 设备上部署 Qwen 1.8B 模型的过程,你需要至少16GB内存的机器来完成这项任务,我们将使用英特尔的大模型推理库来实现完整过程。Bigdl-llm 是一个在英特尔设备上运行 LLM(大语言模型)的加速库,通过 INT4/FP4/INT8/FP8 精度量化和架构针对性优化以实现大模型在 英特尔 CPU、GPU上的低资源占用与高速推理能力(适用于任何 PyTorch 模型)。原创 2024-04-18 06:45:05 · 512 阅读 · 0 评论 -
[大模型]Qwen-7B-Chat Lora 低精度微调
LoraConfig这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_type:模型类型:需要训练的模型层的名字,主要就是attention部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。rlora的秩,具体可以看Lora原理lora_alphaLora alaph,具体作用参见Lora原理Lora的缩放是啥嘞?当然不是r(秩),这个缩放就是, 在这个LoraConfig中缩放就是4倍。原创 2024-04-18 06:43:01 · 903 阅读 · 0 评论 -
[大模型]Qwen-7B-Chat 接入langchain搭建知识库助手
在autodl平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8接下来打开刚刚租用服务器的JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行demo。pip换源和安装依赖包。原创 2024-04-18 06:42:20 · 1175 阅读 · 0 评论 -
[大模型]Qwen-7B-chat 全量微调
首先我们要准训练模型的代码,这里我们使用的modelscope上的模型,大家自行下载即可。OK,模型下载完毕之后,我们就要准备代码文件。其实全量微调和Lora微调的代码基本一样,都采用了Trainer类来进行训练。只不过在全量微调的时候没有加载LoraConfig,那我就直接给出代码,如果对代有什么问题,大家可以先自行探索Qwen lora的代码解释,有什么不懂的地方可以提Issue。需要把代码中的模型地址修改一下,改成自己的模型地址。原创 2024-04-18 06:40:20 · 339 阅读 · 0 评论 -
[大模型]Qwen-7B-Chat Ptuning 微调
参考数据加载与模型配置与一致,在此具体讲一下Ptuning的细节:基本原理为冻结主模型全部参数,在训练数据前加入一小段Prompt,之训练Prompt的嵌入层。在Ptuning中,只有soft prompt,是自动学习的,不用人工设置。原创 2024-04-18 06:39:07 · 158 阅读 · 0 评论 -
[大模型]Qwen-7B-Chat Lora 微调
LoraConfig这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_type:模型类型:需要训练的模型层的名字,主要就是attention部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。rlora的秩,具体可以看Lora原理lora_alphaLora alaph,具体作用参见Lora原理Lora的缩放是啥嘞?当然不是r(秩),这个缩放就是, 在这个LoraConfig中缩放就是4倍。原创 2024-04-18 06:36:05 · 833 阅读 · 0 评论 -
[大模型]Qwen-7B-Chat WebDemo
在autodl平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8接下来打开刚刚租用服务器的JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行demo。pip换源和安装依赖包。原创 2024-04-18 06:35:20 · 425 阅读 · 0 评论 -
[大模型]Qwen-7B-hat Transformers 部署调用
在autodl平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8接下来打开刚刚租用服务器的JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行demo。pip换源和安装依赖包。原创 2024-04-18 06:34:11 · 263 阅读 · 0 评论 -
[大模型]MiniCPM-2B-chat WebDemo部署
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。经过 SFT 后,MiniCPM 在公开综合性评测集上,MiniCPM 与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。原创 2024-04-18 06:32:42 · 780 阅读 · 0 评论 -
[大模型]MiniCPM-2B-chat transformers 部署调用
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。经过 SFT 后,MiniCPM 在公开综合性评测集上,MiniCPM 与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。原创 2024-04-18 06:29:34 · 612 阅读 · 0 评论 -
[大模型]MiniCPM-2B-chat FastApi 部署调用
MiniCPM 是面壁智能与清华大学自然语言处理实验室共同开源的系列端侧大模型,主体语言模型 MiniCPM-2B 仅有 24亿(2.4B)的非词嵌入参数量。经过 SFT 后,MiniCPM 在公开综合性评测集上,MiniCPM 与 Mistral-7B相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。原创 2024-04-17 07:28:39 · 618 阅读 · 1 评论 -
[大模型]InternLM2-7B-chat Xtuner Qlora 微调
XTuner 训练多轮对话模型时,采取了一种更加充分高效的方法,如下图所示。我们将多轮对话进行拼接,之后输入模型,并行计算每个位置的 loss,而只有 Output 部分的 loss 参与回传。[{",},",},",},",},",},",}]数据集中的 “conversation” 键对应的值是一个列表,用于保存每一轮对话的指令和实际回答(GroundTruth)。原创 2024-04-17 07:25:20 · 869 阅读 · 0 评论 -
[大模型]InternLM2-7B-chat WebDemo 部署
InternLM2 ,即书生·浦语大模型第二代,开源了面向实用场景的70亿参数基础模型与对话模型 (InternLM2-Chat-7B)。原创 2024-04-17 07:23:12 · 522 阅读 · 0 评论 -
[大模型]InternLM2-7B-chat langchain 接入
InternLM2 ,即书生·浦语大模型第二代,开源了面向实用场景的70亿参数基础模型与对话模型 (InternLM2-Chat-7B)。原创 2024-04-17 07:21:15 · 602 阅读 · 0 评论 -
[大模型]基于 InternLM 和 LangChain 搭建知识库助手
首先在AutoDL上租一台显卡驱动支持11.7以上的双卡3090机器.在选择镜像是选择Miniconda-->conda3-->–>11.6打开中的终端,首先运行以下命令安装接下来运行以下命令,安装gradio等依赖包。请严格安装以下版本安装!原创 2024-04-16 08:15:19 · 444 阅读 · 0 评论 -
[大模型]InternLM2-7B-chat FastAPI 部署
首先在AutoDL上租一台显卡驱动支持11.7以上的双卡3090机器.在选择镜像是选择Miniconda-->conda3-->–>11.6打开中的终端,首先运行以下命令安装接下来运行以下命令,安装gradio等依赖包。请严格安装以下版本安装!原创 2024-04-16 08:14:30 · 301 阅读 · 0 评论 -
[大模型]浦语灵笔图文理解&创作
首先在AutoDL上租一台显卡驱动支持11.7以上的双卡3090机器.在选择镜像是选择Miniconda-->conda3-->–>11.6打开中的终端,首先运行以下命令安装接下来运行以下命令,安装gradio等依赖包。请严格安装以下版本安装!原创 2024-04-16 08:13:28 · 214 阅读 · 0 评论 -
[大模型]Lagent+InternLM-Chat-7B-V1.1
选择和第一个InternLM一样的AutoDL镜像环境,运行以下命令安装依赖,如果上一个已经配置好环境不需要重复安装.原创 2024-04-16 08:12:26 · 240 阅读 · 0 评论 -
[大模型]InternLM-Chat-7B 对话 Web
在平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>1.11.0–>–>11.3接下来打开刚刚租用服务器的JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行demo。pip换源和安装依赖包。原创 2024-04-16 08:11:39 · 291 阅读 · 0 评论 -
[大模型]internLM-Chat-7B FastApi 部署调用
在平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择PyTorch–>1.11.0–>–>11.3接下来打开刚刚租用服务器的JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行demo。pip换源和安装依赖包。原创 2024-04-16 08:10:01 · 380 阅读 · 0 评论 -
[大模型]InternLM-Chat-7B Transformers 部署调用
粘贴代码后记得保存文件,上面的代码有比较详细的注释,大家如有不理解的地方,欢迎提出issue。(魔塔社区)中的snapshot_download函数下载模型,第一个参数为模型名称,参数。平台中租一个3090等24G显存的显卡机器,如下图所示镜像选择。执行下载,模型大小为14GB,下载模型大概需要10~20分钟。粘贴代码后记得保存文件(Ctrl+S),如下图所示。,并且打开其中的终端开始环境配置、模型下载和运行。保存后返回终端界面,运行。文件并在其中输入以下内容。在终端输入以下命令启动。原创 2024-04-16 08:09:01 · 252 阅读 · 0 评论 -
[大模型]DeepSeek-MoE-16b-chat Transformers 部署调用
DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。与自家的7B密集模型相比,二者在19个数据集上的表现各有胜负,但整体比较接近。而与同为密集模型的Llama 2-7B相比,DeepSeek MoE在数学、代码等方面还体现出来明显的优势。但两种密集模型的计算量都超过了180TFLOPs每4k token,DeepSeek MoE却只有74.4TFLOPs,只有两者的40%。原创 2024-04-15 07:57:08 · 449 阅读 · 0 评论 -
[大模型]DeepSeek-MoE-16b-chat FastApi 部署调用
DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。与自家的7B密集模型相比,二者在19个数据集上的表现各有胜负,但整体比较接近。而与同为密集模型的Llama 2-7B相比,DeepSeek MoE在数学、代码等方面还体现出来明显的优势。但两种密集模型的计算量都超过了180TFLOPs每4k token,DeepSeek MoE却只有74.4TFLOPs,只有两者的40%。原创 2024-04-15 07:56:14 · 330 阅读 · 1 评论 -
[大模型]DeepSeek-7B-chat 4bits量化 QLora 微调
LoraConfig这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_type:模型类型:需要训练的模型层的名字,主要就是attention部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。rlora的秩,具体可以看Lora原理lora_alphaLora alaph,具体作用参见Lora原理Lora的缩放是啥嘞?当然不是r(秩),这个缩放就是, 在这个LoraConfig中缩放就是4倍。原创 2024-04-15 07:55:07 · 821 阅读 · 0 评论 -
[大模型]DeepSeek-7B-chat Lora 微调
LoraConfig这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_type:模型类型:需要训练的模型层的名字,主要就是attention部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。rlora的秩,具体可以看Lora原理lora_alphaLora alaph,具体作用参见Lora原理Lora的缩放是啥嘞?当然不是r(秩),这个缩放就是, 在这个LoraConfig中缩放就是4倍。原创 2024-04-15 07:54:32 · 468 阅读 · 0 评论 -
[大模型]DeepSeek-7B-chat WebDemo 部署
由70亿个参数组成的高级语言模型 DeepSeek LLM。它是在一个包含2万亿个英文和中文代币的庞大数据集上从零开始训练的。为了促进研究,DeepSeek 已经为研究社区开放了DeepSeek LLM 7B/67B Base 和 DeepSeek LLM 7B/67B Chat。原创 2024-04-15 07:53:52 · 369 阅读 · 0 评论 -
[大模型]DeepSeek-7B-chat langchain 接入
这篇主要讲如何对接Langchain中的LLM模块,其他关于如何对接向量数据库和gradio的部分请参考模块。原创 2024-04-15 07:53:00 · 292 阅读 · 0 评论 -
[大模型]DeepSeek-7B-chat FastApi 部署调用
由70亿个参数组成的高级语言模型 DeepSeek LLM。它是在一个包含2万亿个英文和中文代币的庞大数据集上从零开始训练的。为了促进研究,DeepSeek 已经为研究社区开放了DeepSeek LLM 7B/67B Base 和 DeepSeek LLM 7B/67B Chat。原创 2024-04-15 07:52:11 · 430 阅读 · 0 评论 -
[大模型]BlueLM-7B-Chat Lora 微调
LoraConfig这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_type:模型类型:需要训练的模型层的名字,主要就是attention部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。rlora的秩,具体可以看Lora原理lora_alphaLora alaph,具体作用参见Lora原理Lora的缩放是啥嘞?当然不是r(秩),这个缩放就是, 在这个LoraConfig中缩放就是4倍。原创 2024-04-14 06:34:09 · 682 阅读 · 0 评论 -
[大模型] BlueLM-7B-Chat WebDemo 部署
BlueLM-7B 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型,参数规模为 70 亿。BlueLM-7B 在和上均取得领先结果,对比同尺寸开源模型中具有较强的竞争力(截止11月1号)。本次发布共包含 7B 模型的 Base 和 Chat 两个版本。原创 2024-04-14 06:32:55 · 400 阅读 · 0 评论 -
[大模型]BlueLM-7B-Chat langchain 接入
BlueLM-7B 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型,参数规模为 70 亿。BlueLM-7B 在和上均取得领先结果,对比同尺寸开源模型中具有较强的竞争力(截止11月1号)。本次发布共包含 7B 模型的 Base 和 Chat 两个版本。原创 2024-04-14 06:31:56 · 649 阅读 · 0 评论