编译 text-embeddings-inference遇到的问题总结

Quintin.Tao

已于 2025-05-13 12:40:04 修改

阅读量382

点赞数 9

分类专栏： Embeding 文章标签：人工智能

于 2025-05-10 15:51:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2502_91798152/article/details/147775385

版权

Embeding 专栏收录该内容

2 篇文章

订阅专栏

1.git 在租用的ubuntu 服务器上无法访问，除了可以设置代理工具之外还可以给git做个代理

通过以下命令进行tei 的编译，本次使用rtx-3080 GPU

cargo install --path router -F candle-cuda -F http --no-default-features

遇到的第一个问题就是git 无法访问。

可以通过以下命令给git做个代理

git config --global url."https://gh-proxy.com/https://github.com".insteadOf https://github.com

这样，当你执行类似 git clone https://github.com/user/repo.git 的命令时，Git 实际上会访问 GitHub 文件加速代理 - 快速访问 GitHub 文件/https://github.com/user/repo.git，从而加快下载速度。

https://github.ur1.fun

问题2.

这个问题困扰了很久，后来发现这样的参数可以编译过去，是查看了项目的docker镜像。

cargo install --path router -F candle-cuda --features static-linking -F http --no-default-features

问题3.

编译这个项目把卡机的内存和CPU都给打满了，花了不少冤枉钱。

这里也可以走这样的路子，将job调整到比CPU core 数少，越少越稳，但编译速度巨慢。

cargo install --path router -F candle-cuda -F static-linking -F http --no-default-features --jobs 5

后来索性租了A6000 显卡来跑，果然花钱就是快，把jobs全放开，半个小时编译完。

问题4.

启动 “text-embeddings-router --model-id BAAI/bge-large-zh-v1.5 --port 8080”

需要切换到rust taget 目录下，找到编译出来的 text-embeding-router文件。500多M

一波这么多折。找来找去，一个环境变量搞定。

export USE_FLASH_ATTENTION=False

再启动~~~

之后把步骤总结一下，再写一篇关于在GPU 上搭建text-embeddings-inference 服务的详细文章

问题5. RTX 6000 上编译的二进制文件，拿到RTX 3070 上运行

结论，要看好了是哪种显卡。。compute capability

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Quintin.Tao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。