大模型原理与应用
大模型概念
核心是注意力机制,通过注意力机制,聚焦于输入序列中的重要部分,类似于人类阅读时关注关键词。
大模型特点
规模巨大,预训练和微调机制,上下文感知能力
以Qwen为例
part1
创建项目,选择B1.medium规格服务器
选择CUDA12.1 PyTorch2.1.1的镜像
在模型中搜索Qwen2-0.5B-Instruct
点击启动后,进入环境。
在/gemini/code中存放代码,/gemini/pretrain中是我们刚刚挂载的模型
在本地解压大模型应用.zip,得到5个文件,进入/gemini/code目录,将文件拖入窗口完成上传
tokenizer:导入的模型库
system:前提条件
user:用户方面提出的问题
assitant:希望大模型输出的话
model_inputs:数字化
stable diffusion图像生成方法
组成部分
文本编码器,图像解码器,噪声预测器
part2
创建项目,选择B1.medium规格服务器
镜像搜1111
数据搜stable diffusion model
进入环境后在网页终端输入以下命令:
tar xf /gemini/data-1/stable-diffusion-webui.tar -C /gemini/code/
chmod +x /root/miniconda3/lib/python3.10/site-packages/gradio/frpc_linux_amd64_v0.2
cd /stable-diffusion-webui && python launch.py --deepdanbooru --share --xformers --listen
按照生成的链接创建端口,复制进入环境