中文分词,词性标注与实体命名合并脚本

直接合成了接口,按照模板的接口直接使用即可:

#-*- coding:utf-8 -*-
#合并
#ucas_mouren
import copy
import jieba.posseg as psg
#下面是合并的接口类型,数据要按照这个类型
cws=['我', '叫', '沃尔夫冈', ',', '我', '住', '在', '柏林', '。', '2018年', '3月', ',', '在', '北京', '大', '学', '学习', '中文', ',', '去', '了', '故', '宫', ',', '爬', '了', '长城', ',', '现', '在', '在', '中', '国', '银行', '上班', '。', '我', '很', '喜欢', '四川', '的', '火锅', ',', '中国', '的', '中国人', '的', '火锅', '。']
ner=[['o', 0, 0], ['o', 1, 0], ['name', 2, 0], ['name', 3, 1], ['name', 4, 2], ['name', 5, 3], ['o', 6, 0], ['o', 7, 0], ['o', 8, 0], ['o', 9, 0], ['loc', 10, 0], ['loc', 11, 1], ['o', 12, 0], ['time', 13, 0], ['time', 14, 1], ['time', 15, 2], ['time', 16, 3], ['time', 17, 4], ['time', 18, 5], ['time', 19, 6], ['o', 20, 0], ['o', 21, 0], ['o', 22, 0], ['o', 23, 0], ['o', 24, 0], ['o', 25, 0], ['o', 26, 0], ['o', 27, 0], ['language', 28, 0], ['language', 29, 1], ['o', 30, 0], ['o', 31, 0], ['o', 32, 0], ['o', 33, 0], ['o', 34, 0], ['o', 35, 0], ['o', 36, 0], ['o', 37, 0], ['o', 38, 0], ['o', 39, 0], ['o', 40, 0], ['o', 41, 0], ['o', 42, 0], ['o', 43, 0], ['org', 44, 0], ['org', 45, 1], ['o', 46, 0], ['o', 47, 0], ['o', 48, 0], ['o', 49, 0], ['o', 50, 0], ['o', 51, 0], ['o', 52, 0], ['o', 53, 0], ['o', 54, 0], ['loc', 55, 0], ['loc', 56, 1], ['o', 57, 0], ['o', 58, 0], ['o', 59, 0], ['o', 60, 0], ['o', 61, 0], ['o', 62, 0], ['o', 63, 0], ['race', 64, 0], ['race', 65, 1], ['race', 66, 2], ['o', 67, 0], ['o', 68, 0], ['o', 69, 0], ['o', 70, 0]]
pos=['Nh', 'VG', 'Nb', 'COMMACATEGORY', 'Nh', 'VCL', 'P', 'Nc', 'PERIODCATEGORY', 'Neu', 'Nd', 'COMMACATEGORY', 'P', 'Nc', 'Nc', 'FW', &
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要实现有实义的单词或短语的英文分词,可以使用自然语言处理库NLTK中的词性标注功能。具体步骤如下: 1. 安装nltk库:在命令行中输入 pip install nltk 2. 导入nltk库:在Python脚本中输入 import nltk 3. 下载nltk数据:在Python脚本中输入 nltk.download('averaged_perceptron_tagger') 4. 使用词性标注功能:在Python脚本中输入 nltk.pos_tag(words),其中words是待分词的文本字符串,函数返回值是一个列表,每个元素是一个元组(word, pos),其中word是单词或短语,pos是它的词性标注,例如('apple', 'NN')表示单词“apple”的词性是名词。 5. 筛选有实义的单词或短语:可以根据词性标注的结果,筛选出名词、动词、形容词、副词等有实义的词汇,或者根据上下文语境,筛选出符合要求的短语。 举例来说,假设有如下文本字符串: text = "I like to eat apples and bananas, but I don't like oranges." 可以使用如下代码进行分词和词性标注,并筛选出名词和动词: import nltk # 下载数据 nltk.download('averaged_perceptron_tagger') # 待分词的文本字符串 text = "I like to eat apples and bananas, but I don't like oranges." # 分词和词性标注 words = nltk.word_tokenize(text) pos_tags = nltk.pos_tag(words) # 筛选名词和动词 meaningful_words = [word for word, pos in pos_tags if pos.startswith('N') or pos.startswith('V')] print(meaningful_words) 输出结果为:['like', 'eat', 'apples', 'bananas', 'like', 'oranges'],其中包含了有实义的单词和短语。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值