llm-native RAG： auto-coder.rag 日拱一卒

最新推荐文章于 2024-10-06 10:19:30 发布

祝威廉

最新推荐文章于 2024-10-06 10:19:30 发布

阅读量248

点赞数 2

本文链接：https://blog.csdn.net/allwefantasy/article/details/142764521

版权

距离上次全球首发：第二代 RAG 系统 auto-coder.rag 相比市面主流RAG系统 20%-60% 效果提升不到半个月，我们这次带来了一个新版本 0.1.175。

极简使用

pip install -U auto-coder


auto-coder.rag serve \
--tokenizer_path /Users/allwefantasy/Downloads/tokenizer.json \
--doc_dir  /Users/allwefantasy/projects/ray/doc/source \
--rag_doc_filter_relevance 2

tokenizer 可以在这里下载：https://cdn.deepseek.com/api-docs/deepseek_v2_tokenizer.zip

然后通过 --doc_dir 指定文档目录即可。此时就可以使用兼容 openai 的客户端或者使用 openai sdk 使用了。

支持的文档类型：word,excel,ppt, pdf 以及任何文本文档

不再限制单文件的大小

在第一个版本，我们限制了单个文档大小，不能超过 110k token。如果超过了，用户需要自己切分下。在新版本中，我们实现了自适应长度，系统会自动合并小文件，或者切割长文件，用户不再需要自己手动做前置工作。这里可能需要注意，自适应长度这可能会影响大模型推理商的缓存命中率，如果影响大或者用户需要更好的自主控制，用户可以通过 `--disable_auto_window` 关闭。

更加精细化的窗口分区管理

之前我们将窗口划分input/output区（默认110k/18k），然后 input 区又划分为 full text area, segment area, buff area 三个区域。第一个区域当单个文档都很长的时候，还是存在比较大的浪费（full text area 可能一篇都放不下，并且segment area 还不能复用 full text area 未被占用的token数）。现在结合自适应长度的功能，我们可以确保 full text area 有合理的填充，并且sgement area 能够填满 full text area 的空闲的部分，实现一个较为动态的区域的使用。

可以通过如下参数控制(右侧为默认值)：

--rag_context_window_limit 110000
--full_text_ratio 0.7
--segment_ratio 0.2

更好的日志可观测性

在系统启动时，可以看到更加详细的文档 token 信息：

Total docs:        21
  Total tokens:      816176
  Tokenizer path:    /Users/allwefantasy/Downloads/tokenizer.json
  Relevant score:    2
  Token limit:       110000
  Full text limit:   77000
  Segment limit:     22000
  Buff limit:        11000
  Max doc tokens:    50368
  Min doc tokens:    1108
  Avg doc tokens:    38865.52
  Median doc tokens: 39757.0

可以看到自适应长度后文档集的token分布情况，以及分区信息。当执行一个请求的时候，还可以看到信息填充的窗口情况。

算力的解决

auto-coder.rag 比较依赖大模型长窗口，和高并发推理。我们目前也正在推动多加模型推理供应商加大这块投入。如果用户觉得效果确实好，也多用用，共同推动RAG 领域的进步。