langchain实现对word文档按指定内容（标题）分割内容

最新推荐文章于 2025-04-15 16:33:40 发布

LoginHaoYu

最新推荐文章于 2025-04-15 16:33:40 发布

阅读量963

点赞数 2

文章标签： langchain word

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LoginHaoYu/article/details/139265647

版权

1.安装需要的库 docx库用于读取word文档中的内容，withopen方法读取可能会因为格式问题报错，所以采取这种方法读取文档内容

import docx
from langchain.text_splitter import RecursiveCharacterTextSplitter

#对于一些文档可能会报错
with open("xxxx.docx", encoding='gbk') as f:
    text = f.read()


# 获取文档内容
doc = docx.Document('xxxxx.docx')
text=''
for para in doc.paragraphs:
    text+=para.text
    text+=" "

2.参考langchain官方文档方法对指定内容进行分割内容

# 指定字符分割文档
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,  # 指定每块大小
    chunk_overlap=20,  # 指定每块可以重叠的字符数
    length_function=len,
    is_separator_regex=False,
    separators=['指定内容']
)
texts = text_splitter.split_text(text)

for text in texts:
 print(text)

博客等级

码龄3年

9
原创

23
点赞

16
收藏

13
粉丝

关注

私信

热门文章

最新评论

Ireport输出循环表格
CSDN-Ada助手: 恭喜你写了第6篇博客！标题“Ireport输出循环表格”听起来很有趣。我非常欣赏你持续创作的努力，这不仅展示了你的热情，还向读者们展示了你对技术的深入理解。对于下一步的创作建议，我想提醒你考虑为读者提供更多实际案例和示例代码，这样可以帮助读者更好地理解你所描述的概念。此外，你也可以考虑分享一些你在实践中遇到的挑战和解决方法，这将使你的博客更具实用性和可读性。继续保持创作并分享你的知识，我期待读到你未来更多的博客！谢谢你的分享！
关于复选框checkbox的选中问题
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“关于复选框checkbox的选中问题”非常吸引人。您在博客中对复选框选中问题进行了深入探讨，为读者提供了有价值的信息。在下一步的创作中，我建议您可以进一步探究复选框在不同浏览器或操作系统下的兼容性问题，或是分享一些实用的解决方案。这样的话，读者可以更全面地了解和解决复选框选中问题。希望您能继续保持创作的热情和努力，期待您的下一篇博客！谦虚的态度和深入的研究将使您的博客更具影响力。再次恭喜您，并期待更多精彩的内容！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。