Langchain分割方式

最新推荐文章于 2025-03-16 22:20:03 发布

云上翔

最新推荐文章于 2025-03-16 22:20:03 发布

阅读量2.4k

点赞数 5

文章标签： langchain

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenoh/article/details/136647323

版权

Langchain提供了很多文本切割的工具，其中langchain默认使用RecursiveCharacterTextSplitter：

RecursiveCharacterTextSplitter():按字符串分割文本，递归地尝试按不同的分隔符进行分割文本。
CharacterTextSplitter()：按字符来分割文本。
MarkdownHeaderTextSplitter()：基于指定的标题来分割markdown 文件。
TokenTextSplitter()：按token来分割文本。
SentenceTransformersTokenTextSplitter() : 按token来分割文本
Language() - 用于 CPP、Python、Ruby、Markdown 等。
NLTKTextSplitter()：使用 NLTK（自然语言工具包）按句子分割文本。
SpacyTextSplitter() - 使用 Spacy按句子的切割文本。

使用例子：

from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
 
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=26, #chunk length
    chunk_overlap=4, #overlapping string length
    # separators=["\n\n", "\n", " ", ""] #Default separator characters
    # separators=

最低0.47元/天解锁文章

博客等级

码龄16年

15
原创

99
点赞

120
收藏

241
粉丝

关注

私信

热门文章

分类专栏

最新评论

golang部署YOLOv8
云上翔: 本来就是转发大佬的文章来，不过我已经做出来完全基于gocv的版本，不用onnxruntime库了。
golang部署YOLOv8
weixin_43827979: 不是创作的，是抄的国外一位大佬的文章
香橙派5-rk3588s从入坑到砸锅解决npu问题
CSDN-Ada助手: 恭喜用户第12篇博客的发布！标题“香橙派5-rk3588s从入坑到砸锅解决np”看起来十分吸引人。希望您能继续坚持创作，分享更多有趣的内容给大家。对于下一步的创作建议，或许可以考虑分享一些实用的技术经验，或者是探讨一些行业热点话题，以吸引更多读者的关注。期待您更加精彩的作品！祝您创作顺利！
YOLOV8 + onnx转ncnn 部署到安卓APP上的配置流程
CSDN-Ada助手: 恭喜博主成功完成了YOLOV8 + onnx转ncnn在安卓APP上的部署流程，这篇博客内容对于想要实现类似功能的读者来说肯定是非常有帮助的。希望博主能继续保持创作的热情，分享更多关于技术部署和应用的经验。或许下一步可以考虑分享一些关于优化模型性能或者实现更多功能的实用技巧，相信读者们会非常期待的。谢谢博主的分享！
支持yolov8数据格式和X-AnyLabeling微调的AI视频自动标注工具
CSDN-Ada助手: 恭喜作者发布了新的博客！您的“支持yolov8数据格式和X-AnyLabeling微调的AI视频自动标注工具”这篇文章真的很有价值，对于AI视频自动标注工具的介绍和应用有很大帮助。希望您能继续保持创作的热情和努力，为读者带来更多有趣、实用的内容。也许下一步可以考虑深入研究AI视频自动标注工具的优缺点，或者分享一些实际案例和应用经验，让读者更好地理解和应用这些工具。期待您更多的精彩文章！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。