中文分词,词性标注与实体命名合并脚本

直接合成了接口,按照模板的接口直接使用即可:

#-*- coding:utf-8 -*-
#合并
#ucas_mouren
import copy
import jieba.posseg as psg
#下面是合并的接口类型,数据要按照这个类型
cws=['我', '叫', '沃尔夫冈', ',', '我', '住', '在', '柏林', '。', '2018年', '3月', ',', '在', '北京', '大', '学', '学习', '中文', ',', '去', '了', '故', '宫', ',', '爬', '了', '长城', ',', '现', '在', '在', '中', '国', '银行', '上班', '。', '我', '很', '喜欢', '四川', '的', '火锅', ',', '中国', '的', '中国人', '的', '火锅', '。']
ner=[['o', 0, 0], ['o', 1, 0], ['name', 2, 0], ['name', 3, 1], ['name', 4, 2], ['name', 5, 3], ['o', 6, 0], ['o', 7, 0], ['o', 8, 0], ['o', 9, 0], ['loc', 10, 0], ['loc', 11, 1], ['o', 12, 0], ['time', 13, 0], ['time', 14, 1], ['time', 15, 2], ['time', 16, 3], ['time', 17, 4], ['time', 18, 5], ['time', 19, 6], ['o', 20, 0], ['o', 21, 0], ['o', 22, 0], ['o', 23, 0], ['o', 24, 0], ['o', 25, 0], ['o', 26, 0], ['o', 27, 0], ['language', 28, 0], ['language', 29, 1], ['o', 30, 0], ['o', 31, 0], ['o', 32, 0], ['o', 33, 0], ['o', 34, 0], ['o', 35, 0], ['o', 36, 0], ['o', 37, 0], ['o', 38, 0], ['o', 39, 0], ['o', 40, 0], ['o', 41, 0], ['o', 42, 0], ['o', 43, 0], ['org', 44, 0], ['org', 45, 1], ['o', 46, 0], ['o', 47, 0], ['o', 48, 0], ['o', 49, 0], ['o', 50, 0], ['o', 51, 0], ['o', 52, 0], ['o', 53, 0], ['o', 54, 0], ['loc', 55, 0], ['loc', 56, 1], ['o', 57, 0], ['o', 58, 0], ['o', 59, 0], ['o', 60, 0], ['o', 61, 0], ['o', 62, 0], ['o', 63, 0], ['race', 64, 0], ['race', 65, 1], ['race', 66, 2], ['o', 67, 0], ['o', 68, 0], ['o', 69, 0], ['o', 70, 0]]
pos=['Nh', 'VG', 'Nb', 'COMMACATEGORY', 'Nh', 'VCL', 'P', 'Nc', 'PERIODCATEGORY', 'Neu', 'Nd', 'COMMACATEGORY', 'P', 'Nc', 'Nc', 'FW', &
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值