pydotplus画句子的依存结构树
最开始是打算用pygraphviz这个控件画的,可是安装成功后一直说的缺少什么.dll,只好作罢,中间也用过graphviz,直接用dot语言画图(参照使用dot语言画树结构),后来老师又给我推荐了pydotplus,这是python写dot语言的接口,之前pygraphviz是python写graphviz程序的接口(其实也差不多),因为graphviz也是用dot语言写的。写到这里,我只想说:python大法,文成武德,泽披苍生,千秋万载,一统江湖。
接下来,说正事。
前期介绍
我要处理所有数据文件均采用CONLL格式,UTF8编码。CONLL标注格式包含10列,分别为:
ID FORM LEMMA CPOSTAG POSTAG FEATS HEAD DEPREL PHEAD PDEPREL
本次实验只用到前8列,其含义分别为:
1 ID 当前词在句子中的序号,1开始.
2 FORM 当前词语或标点
3 LEMMA 当前词语(或标点)的原型或词干,在中文中,此列与FORM相同
4 CPOSTAG 当前词语的词性(粗粒度)
5 POSTAG 当前词语的词性(细粒度)
6 FEATS 句法特征,在本次评测中,此列未