概述
Label Studio是一个独立的Web应用程序,用于多类型数据标记和探索。
后端是用纯Python编写的,由Django提供支持。
前端部分是一个与后端无关的React+MST应用程序,包括在一个预编译脚本中。
以下是Label Studio工作流背后的主要概念:
- Tasks表示单个数据集项。
Label Studio是一个多类型的标签工具-您可以导入文本、图像、音频URL、HTML文本或这些数据资源的任意数量和组合。 - Completions是JSON格式的标记结果。
它们可以以各种通用格式导出,随时可以在机器学习管道中使用。 - Predictions是具有相同格式的可选标记结果,但与完成不同,它们用于在注释过程中生成预标记,或验证模型预测。
- Machine learning backend将流行的机器学习框架连接到Label Studio,以便动态学习和生成模型预测。
- Labeling-config是一个简单的XML树,带有标记,用于配置UI元素,连接输入数据和输出标签方案。
- Project包含任务、配置、预测和完成在一个独立的目录中。
- Frontend Labeling UI可以从任何浏览器访问,以预编译的js/css脚本的形式发布,并且可以通过新的标签标签轻松扩展。
您还可以将Label Studio用户界面嵌入到应用程序中。
快速启动
先决条件
在Linux、Windows和MacOSX上运行的Python 3.5或更高版本支持Label Studio。
注意:对于Windows用户,默认安装可能无法构建lxml包。
考虑从非官方的Windows二进制文件中手动安装它。
如果您在x64上运行python3.8,请运行pip install lxml‑4.5.0‑cp38‑cp38‑win_amd64.whl
。
使用 pip 运行
要通过pip安装Label Studio,需要Python>=3.5并运行:
pip install label-studio
然后启动一个新项目,该项目将所有标签数据存储在本地目录my_labeling_项目中:
label-studio start my_labeling_project --init
默认浏览器在自动打开http://localhost:8080/。
通过 Docker 运行
Label Studio也作为docker容器分发。
确保您的本地计算机上安装了Docker。
安装并启动Label Studio在http://localhost:8080,将所有标签数据存储在./my_labeling_项目目录中:
docker run --rm -p 8080:8080 -v `pwd`/my_labeling_project:/label-studio/my_labeling_project --name label-studio heartexlabs/label-studio:latest
注意:如果./my_labeling_project文件夹存在,将引发异常。
请删除此文件夹或使用–force选项。
注意:对于Windows,您必须修改由-v选项设置的卷路径
您可以通过附加任何可用的命令行参数来重写默认启动命令:
docker run -p 8080:8080 -v `pwd`/my_project:/label-studio/my_project --name label-studio heartexlabs/label-studio:latest label-studio start my_project --init --force --template image_mixedlabel
如果要生成本地映像,请运行:
docker build -t heartexlabs/label-studio:latest .
通过源码运行
如果要使用夜间构建或扩展功能,请考虑使用Git下载源代码并在本地运行Label Studio:
git clone https://github.com/heartexlabs/label-studio.git
cd label-studio
python setup.py develop
然后创建一个新的项目,它将所有标签数据存储在本地目录my_labeling_project中:
label-studio start my_labeling_project --init
默认浏览器将在自动打开http://localhost:8080。
多会话模式
您可以在多会话模式下启动Label Studio-每个浏览器 session 都创建自己的项目,并将关联的 session ID作为名称。
要以多会话模式启动Label Studio并将所有项目保留在单独的目录会话项目中,请运行
label-studio start-multi-session --root-dir ./session_projects
命令行参数
您可以通过命令行界面指定输入任务、项目配置、机器学习后端和其他选项。
运行label-studio start --help
查看所有可用选项。
使用登录名和密码进行身份验证
您可以使用基本HTTP身份验证来限制对LS实例的访问。
label-studio start my_labeling_project --username user --password pwd
或者在项目的config.json中输入用户名和密码。
{
...
"username": "user",
"password": "pwd",
...
}
所有用户的用户名和密码都是相同的。