使用Chonkie录制您的文本-超轻量级和闪电般快速的分块库,已准备好为您的文本添加CHONK!厌倦了制作无数个chunker?厌倦了大型库的开销?想要快速有效地对文本进行分块?Chonki帮助你

一、软件介绍

文末提供程序和源码下载学习

       使用Chonkie录制您的文本-超轻量级和闪电般快速的分块库,已准备好为您的文本添加CHONK!厌倦了制作无数个chunker?厌倦了大型库的开销?想要快速有效地对文本进行分块?Chonki帮助你

二、软件特点

  • 功能丰富 :您需要的所有 CHONK
  • 易于使用 :安装、导入、CHONK
  • 快速 :以光速咔嚓咔嚓!动物园
  • 广泛支持 :支持所有您最喜欢的分词器 CHONKS
  • 轻量级 :没有臃肿,只有 CHONK
  • 云就绪 :本地或 Chonkie Cloud 中的 CHONK
     

三、Installation  安装

文末提供源码下载

要安装 chonkie,请运行:

pip install chonkie

Chonkie 遵循最低安装量规则。有最喜欢的 chunker 吗?阅读我们的文档 ,仅安装您需要的内容 不想考虑它?只需全部安装 (不建议用于生产环境)

pip install chonkie[all]

四、用法

下面是一个基本示例,可帮助您入门:

# First import the chunker you want from Chonkie
from chonkie import RecursiveChunker

# Initialize the chunker
chunker = RecursiveChunker()

# Chunk some text
chunks = chunker("Chonkie is the goodest boi! My favorite chunking hippo hehe.")

# Access chunks
for chunk in chunks:
    print(f"Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")

五、Supported Methods  支持的方法


Chonkie 提供了几个 chunker 来帮助您有效地为 RAG 应用程序拆分文本。以下是可用 chunker 的快速概述:

  • TokenChunker: Splits text into fixed-size token chunks.
  • TokenChunker:将文本拆分为固定大小的标记块。
  • SentenceChunker: Splits text into chunks based on sentences.
  • SentenceChunker:根据句子将文本拆分为块。
  • RecursiveChunker: Splits text hierarchically using customizable rules to create semantically meaningful chunks.
  • RecursiveChunker:使用可自定义的规则按层次结构拆分文本,以创建具有语义意义的块。
  • SemanticChunker: Splits text into chunks based on semantic similarity.
  • SemanticChunker:根据语义相似性将文本拆分为块。
  • SDPMChunker: Splits text using a Semantic Double-Pass Merge approach.
  • SDPMChunker:使用语义双通道合并方法拆分文本。
  • LateChunker: Embeds text and then splits it to have better chunk embeddings.
  • LateChunker:嵌入文本,然后拆分文本以获得更好的块嵌入。

六、Benchmarks

Chonkie 不仅可爱,而且快速高效!以下是它与竞争对手的对比情况:

Size📦  大小 📦

  • Default Install: 15MB (vs 80-171MB for alternatives)
  • 默认安装:15MB(替代方案为 80-171MB)
  • With Semantic: Still 10x lighter than the closest competition!
  • 使用 Semantic: 仍然比最接近的竞争对手轻 10 倍!


Speed⚡  速度 ⚡

  • Token Chunking: 33x faster than the slowest alternative
  • Token Chunking: 比最慢的替代方案快 33 倍
  • Sentence Chunking: Almost 2x faster than competitors
  • 句子分块: 几乎比竞争对手快 2 倍
  • Semantic Chunking: Up to 2.5x faster than others
  • 语义分块: 速度比其他产品快 2.5 倍

七、软件下载

夸克网盘分享

本文信息来源于GitHub作者地址:https://github.com/chonkie-inc/chonkie

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值