编译 text-embeddings-inference遇到的问题总结

1.git 在租用的ubuntu 服务器上无法访问,除了可以设置代理工具之外还可以给git做个代理

通过以下命令进行tei 的编译,本次使用rtx-3080 GPU

cargo install --path router -F candle-cuda -F http --no-default-features

遇到的第一个问题就是git 无法访问。

可以通过以下命令给git做个代理

git config --global url."https://gh-proxy.com/https://github.com".insteadOf https://github.com

这样,当你执行类似 git clone https://github.com/user/repo.git 的命令时,Git 实际上会访问 GitHub 文件加速代理 - 快速访问 GitHub 文件/https://github.com/user/repo.git,从而加快下载速度。

https://github.ur1.fun

问题2.

这个问题困扰了很久,后来发现这样的参数可以编译过去,是查看了项目的docker镜像。

cargo install --path router -F candle-cuda --features static-linking -F http --no-default-features

问题3.

编译这个项目把卡机的内存和CPU都给打满了,花了不少冤枉钱。

这里也可以走这样的路子,将job调整到比CPU core 数少,越少越稳,但编译速度巨慢。

cargo install --path router -F candle-cuda -F static-linking -F http --no-default-features --jobs 5

后来索性租了A6000 显卡来跑,果然花钱就是快,把jobs全放开,半个小时编译完。

问题4.

启动 “text-embeddings-router --model-id BAAI/bge-large-zh-v1.5 --port 8080”

需要切换到rust taget 目录下,找到编译出来的 text-embeding-router文件。500多M

一波这么多折。找来找去,一个环境变量搞定。

export USE_FLASH_ATTENTION=False

再启动~~~

之后把步骤总结一下,再写一篇关于在GPU 上搭建text-embeddings-inference 服务的详细文章

问题5. RTX 6000 上编译的二进制文件,拿到RTX 3070 上运行

结论,要看好了是哪种显卡。。compute capability

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Quintin.Tao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值