Kashgari:一个方便快捷的命名实体识别、文本分类工具包
最近小编做一个项目时发现的一个很好用的工具包(很适合小白直接上手)
Kashgari安装
(1)利用pip直接安装,这里为了方便小伙伴更加快捷的安装,使用了清华镜像源。
pip install kashgari -i https://pypi.tuna.tsinghua.edu.cn/simple/
(2)如果装了Anaconda环境就用conda安装(用pip也行),安装速度慢的话也可以先配置为清华镜像源。
conda install kashgari
命名实体识别任务(NER)
模型目录:我的这个小demo使用了Bert预训练模型,也就是第一个文件夹,train_data里为数据,格式为。
四 B-Region
川 I-Region
区 B-Organization
域 I-Organization
内 I-Organization
医 I-Organization
院 I-Organization
的 O
骨 B-Department
科 I-Department
收 B-Result
入 I-Result
多 I-Result
少 I-Result
? O
data_load.py
from typing import Tuple, List
# 定义一个读取数据的类
class DataReader(object):
def read_file(file_path: str,
text_index: int = 0,
label_index: int = 1) -> Tuple[List[List[str]], List[List[str]]]:
"""
根据文件路径读取训练数据、测试数据以及验证数据的text和