Bulk 项目使用教程
bulk A Simple Bulk Labelling Tool 项目地址: https://gitcode.com/gh_mirrors/bu/bulk
1. 项目介绍
Bulk 是一个简单的批量标注工具,旨在帮助开发者快速对数据集进行批量标注。该项目基于 Python 开发,提供了在 Jupyter Notebook 中使用的交互式小部件以及一个基于 Bokeh 的 Web 应用界面。Bulk 主要用于处理文本和图像数据,通过 UMAP 嵌入表示来生成标注界面,支持快速选择和标注数据点。
2. 项目快速启动
安装
首先,确保你已经安装了 Python 环境。然后使用 pip 安装 Bulk:
python -m pip install --upgrade pip
python -m pip install bulk
文本数据预处理
以下是一个简单的文本数据预处理示例,使用 embetter
和 UMAP
生成嵌入表示:
import pandas as pd
from umap import UMAP
from sklearn.pipeline import make_pipeline
from embetter.text import SentenceEncoder
# 构建句子编码管道,包含 UMAP 降维
enc = SentenceEncoder('all-MiniLM-L6-v2')
umap = UMAP()
text_emb_pipeline = make_pipeline(enc, umap)
# 加载句子数据
sentences = list(pd.read_csv("tests/data/text.csv")['text'])
# 计算嵌入
X_tfm = text_emb_pipeline.fit_transform(sentences)
# 保存到 DataFrame
df = pd.DataFrame({"text": sentences})
df['x'] = X_tfm[:, 0]
df['y'] = X_tfm[:, 1]
使用 Jupyter Notebook 小部件
在 Jupyter Notebook 中使用 BaseTextExplorer
小部件进行交互式探索:
from bulk.widgets import BaseTextExplorer
widget = BaseTextExplorer(df)
widget.show()
使用 Web 应用进行标注
生成标注文件后,可以使用 Bulk 的 Web 应用进行标注:
python -m bulk text ready.csv
3. 应用案例和最佳实践
文本数据标注
Bulk 特别适用于需要对大量文本数据进行快速标注的场景。例如,在情感分析任务中,可以使用 Bulk 快速标注文本数据的情感标签。
图像数据标注
对于图像数据,Bulk 同样提供了标注界面。通过预处理生成图像的嵌入表示后,可以使用 Bulk 的 Web 应用进行批量标注。
数据质量检查
Bulk 还可以用于数据质量检查。通过交互式界面,用户可以快速发现数据中的异常点或不一致性,从而提高数据质量。
4. 典型生态项目
embetter
embetter
是一个用于生成文本和图像嵌入的库,Bulk 项目中使用了 embetter
来生成数据嵌入表示。
UMAP
UMAP(Uniform Manifold Approximation and Projection)是一种用于降维的算法,Bulk 使用 UMAP 将高维嵌入数据降维到二维,以便于可视化和标注。
Bokeh
Bokeh 是一个用于构建交互式数据可视化的 Python 库,Bulk 的 Web 应用界面基于 Bokeh 构建,提供了丰富的交互功能。
通过结合这些生态项目,Bulk 能够提供强大的数据标注和探索功能,适用于多种数据科学任务。
bulk A Simple Bulk Labelling Tool 项目地址: https://gitcode.com/gh_mirrors/bu/bulk