一、软件介绍
文末提供程序和源码下载学习
使用Chonkie录制您的文本-超轻量级和闪电般快速的分块库,已准备好为您的文本添加CHONK!厌倦了制作无数个chunker?厌倦了大型库的开销?想要快速有效地对文本进行分块?Chonki帮助你
二、软件特点
- 功能丰富 :您需要的所有 CHONK
- 易于使用 :安装、导入、CHONK
- 快速 :以光速咔嚓咔嚓!动物园
- 广泛支持 :支持所有您最喜欢的分词器 CHONKS
- 轻量级 :没有臃肿,只有 CHONK
- 云就绪 :本地或 Chonkie Cloud 中的 CHONK
三、Installation 安装
文末提供源码下载
要安装 chonkie,请运行:
pip install chonkie
Chonkie 遵循最低安装量规则。有最喜欢的 chunker 吗?阅读我们的文档 ,仅安装您需要的内容 不想考虑它?只需全部安装 (不建议用于生产环境)
pip install chonkie[all]
四、用法
下面是一个基本示例,可帮助您入门:
# First import the chunker you want from Chonkie
from chonkie import RecursiveChunker
# Initialize the chunker
chunker = RecursiveChunker()
# Chunk some text
chunks = chunker("Chonkie is the goodest boi! My favorite chunking hippo hehe.")
# Access chunks
for chunk in chunks:
print(f"Chunk: {chunk.text}")
print(f"Tokens: {chunk.token_count}")
五、Supported Methods 支持的方法
Chonkie 提供了几个 chunker 来帮助您有效地为 RAG 应用程序拆分文本。以下是可用 chunker 的快速概述:
- TokenChunker: Splits text into fixed-size token chunks.
- TokenChunker:将文本拆分为固定大小的标记块。
- SentenceChunker: Splits text into chunks based on sentences.
- SentenceChunker:根据句子将文本拆分为块。
- RecursiveChunker: Splits text hierarchically using customizable rules to create semantically meaningful chunks.
- RecursiveChunker:使用可自定义的规则按层次结构拆分文本,以创建具有语义意义的块。
- SemanticChunker: Splits text into chunks based on semantic similarity.
- SemanticChunker:根据语义相似性将文本拆分为块。
- SDPMChunker: Splits text using a Semantic Double-Pass Merge approach.
- SDPMChunker:使用语义双通道合并方法拆分文本。
- LateChunker: Embeds text and then splits it to have better chunk embeddings.
- LateChunker:嵌入文本,然后拆分文本以获得更好的块嵌入。
六、Benchmarks
Chonkie 不仅可爱,而且快速高效!以下是它与竞争对手的对比情况:
Size📦 大小 📦
- Default Install: 15MB (vs 80-171MB for alternatives)
- 默认安装:15MB(替代方案为 80-171MB)
- With Semantic: Still 10x lighter than the closest competition!
- 使用 Semantic: 仍然比最接近的竞争对手轻 10 倍!
Speed⚡ 速度 ⚡
- Token Chunking: 33x faster than the slowest alternative
- Token Chunking: 比最慢的替代方案快 33 倍
- Sentence Chunking: Almost 2x faster than competitors
- 句子分块: 几乎比竞争对手快 2 倍
- Semantic Chunking: Up to 2.5x faster than others
- 语义分块: 速度比其他产品快 2.5 倍
七、软件下载
本文信息来源于GitHub作者地址:https://github.com/chonkie-inc/chonkie