Bulk 项目使用教程

班妲盼Joyce

于 2024-09-24 08:04:41 发布

阅读量321

点赞数 5

本文链接：https://blog.csdn.net/gitblog_00604/article/details/142475251

版权

Bulk 项目使用教程

bulk A Simple Bulk Labelling Tool 项目地址: https://gitcode.com/gh_mirrors/bu/bulk

1. 项目介绍

Bulk 是一个简单的批量标注工具，旨在帮助开发者快速对数据集进行批量标注。该项目基于 Python 开发，提供了在 Jupyter Notebook 中使用的交互式小部件以及一个基于 Bokeh 的 Web 应用界面。Bulk 主要用于处理文本和图像数据，通过 UMAP 嵌入表示来生成标注界面，支持快速选择和标注数据点。

2. 项目快速启动

安装

首先，确保你已经安装了 Python 环境。然后使用 pip 安装 Bulk：

python -m pip install --upgrade pip
python -m pip install bulk

文本数据预处理

以下是一个简单的文本数据预处理示例，使用 embetter 和 UMAP 生成嵌入表示：

import pandas as pd
from umap import UMAP
from sklearn.pipeline import make_pipeline
from embetter.text import SentenceEncoder

# 构建句子编码管道，包含 UMAP 降维
enc = SentenceEncoder('all-MiniLM-L6-v2')
umap = UMAP()
text_emb_pipeline = make_pipeline(enc, umap)

# 加载句子数据
sentences = list(pd.read_csv("tests/data/text.csv")['text'])

# 计算嵌入
X_tfm = text_emb_pipeline.fit_transform(sentences)

# 保存到 DataFrame
df = pd.DataFrame({"text": sentences})
df['x'] = X_tfm[:, 0]
df['y'] = X_tfm[:, 1]

使用 Jupyter Notebook 小部件

在 Jupyter Notebook 中使用 BaseTextExplorer 小部件进行交互式探索：

from bulk.widgets import BaseTextExplorer

widget = BaseTextExplorer(df)
widget.show()

使用 Web 应用进行标注

生成标注文件后，可以使用 Bulk 的 Web 应用进行标注：

python -m bulk text ready.csv

3. 应用案例和最佳实践

文本数据标注

Bulk 特别适用于需要对大量文本数据进行快速标注的场景。例如，在情感分析任务中，可以使用 Bulk 快速标注文本数据的情感标签。

图像数据标注

对于图像数据，Bulk 同样提供了标注界面。通过预处理生成图像的嵌入表示后，可以使用 Bulk 的 Web 应用进行批量标注。

数据质量检查

Bulk 还可以用于数据质量检查。通过交互式界面，用户可以快速发现数据中的异常点或不一致性，从而提高数据质量。

4. 典型生态项目

embetter

embetter 是一个用于生成文本和图像嵌入的库，Bulk 项目中使用了 embetter 来生成数据嵌入表示。

UMAP

UMAP（Uniform Manifold Approximation and Projection）是一种用于降维的算法，Bulk 使用 UMAP 将高维嵌入数据降维到二维，以便于可视化和标注。

Bokeh

Bokeh 是一个用于构建交互式数据可视化的 Python 库，Bulk 的 Web 应用界面基于 Bokeh 构建，提供了丰富的交互功能。

通过结合这些生态项目，Bulk 能够提供强大的数据标注和探索功能，适用于多种数据科学任务。

bulk A Simple Bulk Labelling Tool 项目地址: https://gitcode.com/gh_mirrors/bu/bulk

班妲盼Joyce

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫