【langchain学习】使用CharacterTextSplitter对文本进行分割

CharacterTextSplitter按照字符来分割文本,并通过字符数量来测量块的长度

from icecream import ic
from langchain.text_splitter import CharacterTextSplitter
text = """
约纳斯·温格高·拉斯穆森(丹麦语:Jonas Vingegaard Rasmussen,1996年12月10日—)是一名丹麦自行车手,效力于珍宝-维斯玛车队,2022年和2023年环法自行车赛总冠军得主。
温格高于2016年签约丹麦车队ColoQuick成为职业车手,同时在鱼类加工厂兼职打工。后于2019年加入珍宝-维斯玛车队。在2021年环法自行车赛上,车队主将普里莫日·罗格里奇多次摔车,于第9赛段前弃赛,先前担任辅助的温格高临时补成主将,最终获得当届亚军。
在2022年环法自行车赛上,他在第11赛段格拉农山口的爬坡之战中一举击败当时黄衫保有者塔德伊·波加萨尔,以2分钟多的优势穿上黄衫,并一直保持到赛事结束,成为继比耶·里斯后第二位赢得环法总冠军的丹麦车手。丹麦出动2架F-16战斗机护送他回国,并在哥本哈根市政厅广场前为其举办了盛大的庆祝仪式。
"""
text_spitter = CharacterTextSplitter(separator="\n\n", chunk_size=300, chunk_overlap=0, length_function=len)
ic(text_spitter.split_text(text))

得到结果:

ic| text_spitter.split_text(text): ['约纳斯·温格高·拉斯穆森(丹麦语:Jonas Vingegaard '
                                    'Rasmussen,1996年12月10日—)是一名丹麦自行车手,效力于珍宝-维斯玛车队,2022年和2023年环法自行车赛总冠军得主。
                                   '
                                    '温格高于2016年签约丹麦车队ColoQuick成为职业车手,同时在鱼类加工厂兼职打工。后于2019年加入珍宝-维斯玛车队。在2021年环法自行车赛上,车队主将普里莫日·罗格里奇多次摔车,于第9赛段前弃赛,先前担任辅助的温格高临时补成主将,最终获得当届亚军。
                                   '
                                    '在2022年环法自行车赛上,他在第11赛段格拉农山口的爬坡之战中一举击败当时黄衫保有者塔德伊·波加萨尔,以2分钟多的优势穿上黄衫,并一直保持到赛事结束,成为继比耶·里斯后第二位赢得环法总冠军的丹麦车手。丹麦出动2架F-16战斗机护送他回国,并在哥本哈根市政厅广场前为其举办了盛大的庆祝仪式。']
  • 6
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值