本文展示了如何使用零样本分类来执行文本分类、标记和主题建模。txtai 围绕 Hugging Face Transformers 中的零镜头分类管道提供了一个轻量级包装器。这种方法开箱即用,效果非常好。感谢 Hugging Face 团队在零样本分类方面的出色工作!
本文中的示例使用文本片段的标签列表来选择最匹配的标签。
tldrstory使用 Streamlit、FastAPI 和 Hugging Face Transformers 实现了零样本分类系统的全栈实现。
安装依赖
安装txtai和所有依赖项。
pip install txtai
创建标签实例
Labels 实例是零样本分类的主要入口点。这是围绕 Hugging Face Transformers 中的零镜头分类管道的轻量级包装器。
除了默认模型外,还可以在Hugging Face 模型中心找到其他模型。
from txtai.pipeline import Labels
Create labels model
labels = Labels()
将标签应用于文本
下面的示例显示了如何将零样本分类器应用于任意文本。零样本分类管道的默认模型是bart-large-mnli。
看看下面的结果。它的表现简直令人惊叹✨。即使对人类来说,这些也不简单。例如,故意选择拦截,因为这在足球中比在篮球中更常见。更大的 Transformer 模型中存储的知识量继续给我留下深刻印象。
data = [“Dodgers lose again, give up 3 HRs in a loss to the Giants”,
“Giants 5 Cardinals 4 final in extra innings”,
“Dodgers drop Game 2 against the Giants, 5-4”,
“Fl