1.git 在租用的ubuntu 服务器上无法访问,除了可以设置代理工具之外还可以给git做个代理
通过以下命令进行tei 的编译,本次使用rtx-3080 GPU
cargo install --path router -F candle-cuda -F http --no-default-features
遇到的第一个问题就是git 无法访问。
可以通过以下命令给git做个代理
git config --global url."https://gh-proxy.com/https://github.com".insteadOf https://github.com
这样,当你执行类似 git clone https://github.com/user/repo.git
的命令时,Git 实际上会访问 GitHub 文件加速代理 - 快速访问 GitHub 文件/https://github.com/user/repo.git
,从而加快下载速度。
问题2.
这个问题困扰了很久,后来发现这样的参数可以编译过去,是查看了项目的docker镜像。
cargo install --path router -F candle-cuda --features static-linking -F http --no-default-features
问题3.
编译这个项目把卡机的内存和CPU都给打满了,花了不少冤枉钱。
这里也可以走这样的路子,将job调整到比CPU core 数少,越少越稳,但编译速度巨慢。
cargo install --path router -F candle-cuda -F static-linking -F http --no-default-features --jobs 5
后来索性租了A6000 显卡来跑,果然花钱就是快,把jobs全放开,半个小时编译完。
问题4.
启动 “text-embeddings-router --model-id BAAI/bge-large-zh-v1.5 --port 8080”
需要切换到rust taget 目录下,找到编译出来的 text-embeding-router文件。500多M
一波这么多折。找来找去,一个环境变量搞定。
export USE_FLASH_ATTENTION=False
再启动~~~
之后把步骤总结一下,再写一篇关于在GPU 上搭建text-embeddings-inference 服务的详细文章
问题5. RTX 6000 上编译的二进制文件,拿到RTX 3070 上运行
结论,要看好了是哪种显卡。。compute capability