设计思想
开始是直接使用jieba的飞浆模式去进行标注,发现其分词效果并不好,于是我先用jieba分词,然后使用jieba进行一次词性标注,将名次传入飞浆,这样效果还挺好的
代码
import pandas as pd
import jieba
import jieba.posseg as pseg
jieba.enable_paddle()
def get_per_list(text):
per_list = [] # 人名列表
word_list = jieba.lcut(text)
# print(word_list)
for word in word_list:
if len(word)==1: # 不加判断会爆
continue
words = pseg.cut(word, use_paddle=True) # paddle模式
# print(list(words))
word, flag = list(words)[0]
if flag=='PER': # 这里写成LOC是地名
per_list.append(word)
per_list = list(set(per_list))
# print(per_list)
return per_list
text = '张瑞龙毕业于华中农业大学'
per_list = get_per_list(text)
print(per_list)