由于语料中包括
[中央/n 人民/n 广播/vn 电台/n]nt
此类词问题,可以选择最长词提取,也可以选择最短词提取
# -*- coding: utf-8 -*-
import codecs
wordfile=codecs.open("199801.txt",encoding="gbk")
curpusfile=codecs.open("curpus.txt",'w', 'utf-8')
def max_word():#最长匹配 提取[中央/n 人民/n 广播/vn 电台/n]nt 样式的词,最长词,如 :中央人民广播电台/n
for sentence in wordfile.readlines():
words= sentence.strip().split(" ")
b_flag = 0
b_word=""
for word in words: #提取[中央/n 人民/n 广播/vn 电台/n]nt 样式的词,最长词,如 :中央人民广播电台/n
if word.s