文本分块大小优缺点

最新推荐文章于 2025-04-27 17:11:50 发布

weixin_42924890

最新推荐文章于 2025-04-27 17:11:50 发布

阅读量502

点赞数 4

分类专栏： LLM 文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42924890/article/details/145356694

版权

长文本向量化的挑战

在基于 Transformer 架构的向量化模型中，每个词汇都会被映射为一个高维向量。为了表示整段文本的语义，通常采用对词向量取平均，或使用特殊标记（如 [CLS]）位置的向量作为整体表示。然而，当直接对过长的文本进行向量化时，会面临以下挑战：

语义信息稀释：长文本往往涵盖多个主题或观点，整体向量难以准确捕捉细节语义，导致语义信息被稀释或淡化，无法充分体现文本的核心内容。
计算开销增大：处理长文本需要更多的计算资源和存储空间，增加了模型的计算复杂度，影响系统的性能和效率。
检索效率降低：过长的向量在检索过程中可能会降低匹配精度，导致检索结果的相关性下降，同时也会降低检索的速度和效率。

提升检索和生成质量的必要性

为了克服上述挑战，合理的文本分块策略显得尤为重要。通过对文本进行适当的切分，可以有效提升检索和生成的质量。

文本分块策略对大模型输出的影响

1.1 文本分块过长的影响

在构建 RAG（Retrieval-Augmented Generation）系统时，文本分块的长度对大模型的输出质量有着至关重要的影响。过长的文本块会带来一系列问题：

语义模糊：当文本块过长时，在向量化过程中，细节语义信息容易被平均化或淡化。这是因为向量化模型需要将大量的

最低0.47元/天解锁文章

weixin_42924890

博客等级

码龄7年

73
原创

834
点赞

677
收藏

552
粉丝

关注

私信

热门文章

分类专栏

机器学习 11篇
一些感悟 1篇
LLM 11篇
python 14篇
Bert 3篇
Docker 1篇
Torch
Transformer
LoRA 4篇
numpy 1篇
Git 1篇
mysql 1篇
pandas 3篇
matplotlib 2篇

最新评论

LoRA基于BERT模型微调实践
江洛白: 为什么Lora微调后准确度变成0.11了
LoRA基于BERT模型微调实践
PhoenixYear: 感谢作者大大分享，Github上的项目已经加星了。不过有一点需要提醒，开源项目里的model_train_lora.py内容是空的，由于博客里有源代码，拷贝后是可以运行的。另外，如果大家想输出训练日志，需要在TraningArguments里加一项配置：report_to="tensorboard"，这样就可以用Tensorboard观察训练状态了。
LoRA训练推理部署流程
shuoyes123: 感谢博主，讲解真的是掰开了，揉碎了。
python可用于生产级别的日志模块
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
matplotlib绘图二
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。