LCA是个求解单词复杂性的一个程序,它要求数据输入必须以 word_postag的形式。
tree-tagger实在是太难用了,简直是上古时代的产物。
作为新世纪的好青年,我们应该找一些新的方法。
我们通过上文的spacy自然语言处理工具包去做单词的词性标注,然后写出到lem文件。
原始数据文件大致长成这个样子,tsv文件列间用\t分隔即可。
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np
import spacy
spacy.__version__
'3.0.5'
词性标注函数
def essay_to_pos(d):
text = (d)
doc = nlp(text)
series_doc = l