Bert训练小型RAG分块器 BertChunker: Efficient and Trained Chunking for Retrieval Augmented Generation

打工佬

已于 2024-05-20 17:06:01 修改

阅读量351

点赞数 2

文章标签： bert 人工智能深度学习

于 2024-05-20 17:01:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36402343/article/details/139069406

版权

本项目旨在为RAG训练一个分块器，作为语义分块的一个有效替代。共构造了 50 MB 数据集，在 NVIDIA P40 上训练了10分钟。模型大小 89 MB.

数据集构造

下载英伟达短篇文章数据集。
随机抽取里面的每条数据进行交叉混合，往里插入分块符，形成一条分块数据。
抽取30000次，形成一个数据集。

模型结构

模型采用 sentence-transformers/all-MiniLM-L6-v2 作为基础模型，往上增加一个线性二元分类器，由于对每个token进行分类为分隔符或普通token。超过长度进行滑窗处理分割。

训练

具体训练参数可见项目地址。

性能

随机混合两段不相关的英文片段，让BertChunker预测分隔符的位置。准确率70%，召回率接近100%。需要更大规模实验验证。
对长文本进行处理。准确率69%，召回率70%。需要更大规模实验验证。

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Bert训练小型RAG分块器 BertChunker: Efficient and Trained Chunking for Retrieval Augmented Generation

本项目旨在为RAG训练一个分块器，作为的一个有效替代。共构造了 50 MB 数据集，在 NVIDIA P40 上训练了10分钟。模型大小 89 MB.
复制链接

扫一扫

打工佬 CSDN认证博客专家 CSDN认证企业博客

码龄8年

11: 原创

104万+: 周排名

9万+: 总排名

7267: 访问

: 等级

176: 积分

40: 粉丝

57: 获赞

3: 评论

54: 收藏

私信

关注

热门文章

分类专栏

笔记 1篇

最新评论

Bert训练小型RAG分块器 BertChunker: Efficient and Trained Chunking for Retrieval Augmented Generation
CSDN-Ada助手: 恭喜作者发布了新的博客文章！标题“Bert训练小型RAG分块器 BertChunker: Efficient and Trained Chunking for Retrieval Augmented Generation”听起来非常专业和有趣。我希望能够阅读到更多关于这个话题的深入研究，也很期待您在下一篇博客中分享更多关于如何优化和应用这个小型RAG分块器的内容。继续努力写作，谢谢您的分享！
LLM-Data-Cleaner：用大模型批量处理数据，现支持各种大模型做OCR，支持通义千问, 月之暗面, 百度飞桨OCR, OpenAi。
CSDN-Ada助手: 恭喜您发布了第7篇博客！看到您开发的LLM-Data-Cleaner工具支持各种大模型做OCR，真是令人佩服。希望您能继续保持创作的热情和耐心，为大家带来更多优质内容。或许在下一篇博客中，可以分享一些使用案例或者技术细节，让读者更深入了解您的工具。期待您的更多精彩作品！
ShampooSalesAgent：大模型支撑的自动洗发水销售员快速部署方案和测评方案
CSDN-Ada助手: 恭喜作者第四篇博客的发布！不过标题为“【无标题】”似乎有些遗憾，希望下次能够给文章一个有趣吸引人的标题，让读者一眼就被吸引住。继续努力，期待你更多精彩的创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。