中文分词，词性标注与实体命名合并脚本

最新推荐文章于 2024-07-25 10:27:09 发布

data-master

最新推荐文章于 2024-07-25 10:27:09 发布

阅读量110

点赞数

文章标签：中文分词自然语言处理

本文链接：https://blog.csdn.net/qq_26974921/article/details/129384005

版权

直接合成了接口，按照模板的接口直接使用即可：

#-*- coding:utf-8 -*-
#合并
#ucas_mouren
import copy
import jieba.posseg as psg
#下面是合并的接口类型,数据要按照这个类型
cws=['我', '叫', '沃尔夫冈', '，', '我', '住', '在', '柏林', '。', '2018年', '3月', '，', '在', '北京', '大', '学', '学习', '中文', '，', '去', '了', '故', '宫', '，', '爬', '了', '长城', ',', '现', '在', '在', '中', '国', '银行', '上班', '。', '我', '很', '喜欢', '四川', '的', '火锅', '，', '中国', '的', '中国人', '的', '火锅', '。']
ner=[['o', 0, 0], ['o', 1, 0], ['name', 2, 0], ['name', 3, 1], ['name', 4, 2], ['name', 5, 3], ['o', 6, 0], ['o', 7, 0], ['o', 8, 0], ['o', 9, 0], ['loc', 10, 0], ['loc', 11, 1], ['o', 12, 0], ['time', 13, 0], ['time', 14, 1], ['time', 15, 2], ['time', 16, 3], ['time', 17, 4], ['time', 18, 5], ['time', 19, 6], ['o', 20, 0], ['o', 21, 0], ['o', 22, 0], ['o', 23, 0], ['o', 24, 0], ['o', 25, 0], ['o', 26, 0], ['o', 27, 0], ['language', 28, 0], ['language', 29, 1], ['o', 30, 0], ['o', 31, 0], ['o', 32, 0], ['o', 33, 0], ['o', 34, 0], ['o', 35, 0], ['o', 36, 0], ['o', 37, 0], ['o', 38, 0], ['o', 39, 0], ['o', 40, 0], ['o', 41, 0], ['o', 42, 0], ['o', 43, 0], ['org', 44, 0], ['org', 45, 1], ['o', 46, 0], ['o', 47, 0], ['o', 48, 0], ['o', 49, 0], ['o', 50, 0], ['o', 51, 0], ['o', 52, 0], ['o', 53, 0], ['o', 54, 0], ['loc', 55, 0], ['loc', 56, 1], ['o', 57, 0], ['o', 58, 0], ['o', 59, 0], ['o', 60, 0], ['o', 61, 0], ['o', 62, 0], ['o', 63, 0], ['race', 64, 0], ['race', 65, 1], ['race', 66, 2], ['o', 67, 0], ['o', 68, 0], ['o', 69, 0], ['o', 70, 0]]
pos=['Nh', 'VG', 'Nb', 'COMMACATEGORY', 'Nh', 'VCL', 'P', 'Nc', 'PERIODCATEGORY', 'Neu', 'Nd', 'COMMACATEGORY', 'P', 'Nc', 'Nc', 'FW', &