【deepseek】(1):12月1日新大模型deepseek发布!使用3080显卡,运行deepseek-7b模型,可以正常运行WebUI了,速度9 words/s。

1,演示视频

https://www.bilibili.com/video/BV1364y157EA/

【deepseek】(1):12月1日新大模型deepseek发布!使用3080显卡,运行7b模型,可以正常运行WebUI了,速度9 words/s。

2,关于RTX 3080 Ti * 1卡,2021年的显卡

RTX 3080 Ti 拥有 34 TFLOPS 的着色器性能、67 TFLOPS 的光追性能、以及 273 TFLOPS 的 Tensor(Sparsity)性能。 该卡的外形设计,依然类似于现有的 RTX 3080 FE 公版显卡(双槽双面风冷散热器),但没有 RTX 3090 那样笨重(BFG),侧边仍是 12-pin 的 Microfit 辅助供电接口。

3,关于 deepseek-llm-7b-chat 的模型,12月1日上传

只有关于代码生成的部分:
https://zhuanlan.zhihu.com/p/666077213

https://www.modelscope.cn/models/deepseek-ai/deepseek-llm-7b-chat/summary
在这里插入图片描述

关于 DeepSeek
DeepSeek 致力于探索 AGI 的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题。

DeepSeek Coder 是深度求索发布的第一代大模型,在不久的将来,我们还将呈现给社区更多更好的研究成果。让我们在这个激动人心的时代,共同推进 AGI 的到来!

https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

在这里插入图片描述

3,使用autodl创建环境,安装最新的 fastchat

需要选择 python3.10 的镜像,否则会执行报错:
Miniconda conda3
Python 3.10(ubuntu22.04)
Cuda 11.8

在这里插入图片描述

apt update && apt install -y git-lfs net-tools
# 一定要保证有大磁盘空间:
cd /root/autodl-tmp
git clone https://www.modelscope.cn/deepseek-ai/deepseek-llm-7b-chat.git

# 最后安装 
pip3 install "fschat[model_worker,webui]" 

安装完成之后就可以使用fastchat启动了。

4,使用 fastchat 启动 deepseek-llm-7b-chat 模型

启动脚本:

# run_all_deepseek.sh

# 清除全部 fastchat 服务
ps -ef | grep fastchat.serve | awk '{print$2}' | xargs kill -9
sleep 3

rm -f *.log

# 首先启动 controller :
nohup python3 -m fastchat.serve.controller --host 0.0.0.0 --port 21001 > controller.log 2>&1 &

# 启动 openapi的 兼容服务 地址 8000
nohup python3 -m fastchat.serve.openai_api_server --controller-address http://127.0.0.1:21001 \
  --host 0.0.0.0 --port 8000 > api_server.log 2>&1 &

# 启动 web ui
nohup python -m fastchat.serve.gradio_web_server --model-list-mode reload \
  --controller-url http://127.0.0.1:21001 \
  --host 0.0.0.0 --port 6006 > web_server.log 2>&1 &

## 启动 worker 
nohup python3 -m fastchat.serve.model_worker  --load-8bit --model-names deepseek-7b \
  --model-path ./deepseek-llm-7b-chat --controller-address http://127.0.0.1:21001 \
  --worker-address http://127.0.0.1:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

sleep 2

tail -f model_worker.log

解决: 内存不够,增加参数 --load-8bit 解决:

2023-12-08 23:01:38 | ERROR | stderr |     return t.to(device, dtype if t.is_floating_point() or t.is_complex() else None, non_blocking)
2023-12-08 23:01:38 | ERROR | stderr | torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 32.00 MiB (GPU 0; 11.76 GiB total capacity; 11.48 GiB already allocated; 27.19 MiB free; 11.49 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

启动成功:

2023-12-08 23:03:00 | INFO | model_worker | args: Namespace(awq_ckpt=None, awq_groupsize=-1, awq_wbits=16, controller_address='http://127.0.0.1:21001', conv_template=None, cpu_offloading=False, debug=False, device='cuda', dtype=None, embed_in_truncate=False, enable_exllama=False, enable_xft=False, exllama_gpu_split=None, exllama_max_seq_len=4096, gptq_act_order=False, gptq_ckpt=None, gptq_groupsize=-1, gptq_wbits=16, gpus=None, host='0.0.0.0', limit_worker_concurrency=5, load_8bit=True, max_gpu_memory=None, model_names=['deepseek-7b'], model_path='./deepseek-llm-7b-chat', no_register=False, num_gpus=1, port=8080, revision='main', seed=None, ssl=False, stream_interval=2, worker_address='http://127.0.0.1:8080', xft_dtype=None, xft_max_seq_len=4096)
2023-12-08 23:03:00 | INFO | model_worker | Loading the model ['deepseek-7b'] on worker c48d8d3f ...
  0%|                                                                                                                               | 0/2 [00:00<?, ?it/s]
 50%|███████████████████████████████████████████████████████████▌                                                           | 1/2 [00:09<00:09,  9.91s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:36<00:00, 19.43s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:36<00:00, 18.01s/it]
2023-12-08 23:03:36 | ERROR | stderr | 
2023-12-08 23:03:36 | INFO | model_worker | Register to controller
2023-12-08 23:03:36 | ERROR | stderr | INFO:     Started server process [1864]
2023-12-08 23:03:36 | ERROR | stderr | INFO:     Waiting for application startup.
2023-12-08 23:03:36 | ERROR | stderr | INFO:     Application startup complete.
2023-12-08 23:03:36 | ERROR | stderr | INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

测速,反而提速了:

python3 -m fastchat.serve.test_throughput --controller-address http://127.0.0.1:21001 --model-name deepseek-7b --n-thread 1

Models: ['deepseek-7b']
worker_addr: http://127.0.0.1:8080
thread 0 goes to http://127.0.0.1:8080
Time (POST): 32.48344707489014 s
Time (Completion): 32.483508586883545, n threads: 1, throughput: 9.820367745890861 words/s.

测试中文输出正常:

curl http://localhost:8000/v1/chat/completions   -H "Content-Type: application/json"   -d '{
     "model": "deepseek-7b",
     "messages": [{"role": "user", "content": "北京景点"}],
     "temperature": 0.7
   }'

webui 启动正常了:

5,总结

终于解决了webui的启动问题。模型发展的速度真的快。速度越来越快了。
deepseek的模型使用起来还可以。可以运行7b的模型了。
测试了几个简单的问题,还可以。7B模型经过 int8 量化,可以在 12G的3080TI 上面运行。

### 如何使用LangChain框架启动新的大模型对话 为了通过LangChain框架启动一个新的大型语言模型(LLM)对话,开发者可以利用其内置的工具包和组件来快速构建自定义的工作流。以下是关于如何实现这一目标的具体说明: #### 工具包与预建组件 LangChain 提供了一系列工具包,这些工具包包含了预先构建好的组件和链路(chains),能够针对特定的应用场景进行定制化开发[^1]。这使得开发者能够在无需从零开始的情况下迅速搭建起基础架构。 #### 销售机器人案例研究 以 `SalesBot` 的应用为例,在实际项目中可能需要设计一种机制让聊天系统平滑过渡到任务导向型对话模式。这意味着不仅要考虑自然流畅的人机交互体验,还要确保整个过程高效完成既定业务目标[^2]。 #### 新旧范式对比分析 根据第6.1节的内容描述可知,当前基于大规模预训练语言模型的方法已经逐渐取代了传统的单一领域专用算法方案。这种方法论上的转变带来了更加灵活多变的可能性空间[^3]。 #### 对话形式的选择 当决定采用纯会话方式时,则只需向模型提供由(S,R)组成的训练样本即可;其中S表示历史对话记录而R则是对应的回复内容[^4]。这种方式简单直接但却不失效果。 #### 实现代理系统的支持 值得注意的是还有其他类似的框架如LangGraph也提供了相应的功能模块用于简化此类操作流程[^5]。因此无论你是倾向于哪一类解决方案都可以找到合适的技术手段予以辅助实施。 ```python from langchain import PromptTemplate, LLMChain from langchain.llms import OpenAI # 初始化OpenAI实例并设置参数 llm = OpenAI(temperature=0) # 创建提示模板对象 prompt_template = PromptTemplate( input_variables=["question"], template="Answer this question based on your knowledge: {question}" ) # 构造完整的链结构 conversation_chain = LLMChain(prompt=prompt_template, llm=llm) # 开始新对话 response = conversation_chain.run(question="What is the capital city of France?") print(response) ``` 上述代码片段展示了如何借助LangChain库中的PromptTemplate类以及LLMChain类创建一个简单的问答程序,并调用run()函数执行具体查询请求得到最终响应结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值