python解析器的作用_在Python中使用Stanford解析器处理中文文本不起作用

最新推荐文章于 2023-03-02 16:28:19 发布

系统领航员

最新推荐文章于 2023-03-02 16:28:19 发布

阅读量241

点赞数

文章标签： python解析器的作用

本文链接：https://blog.csdn.net/weixin_29827071/article/details/113677066

版权

有两个(好吧，三个。。。请参见下面的“更新3”，了解第三个)单独的事情：

1)您的代码返回两个树(两个ROOT)，但您只希望得到一个。发生这种情况是因为raw_parse_sents需要一个句子列表，而不是一个句子，如果您给它一个字符串，它将解析字符串中的每个字符，就像它自己的句子一样，并返回一个一个字符树的列表。所以要么传递raw_parse_sents一个列表，要么使用raw_parse。在

2)您没有指定model_path，默认值为英语。中文有五个选项，但看起来这一个与在线解析器匹配：parser = stanford.StanfordParser(model_path='edu/stanford/nlp/models/lexparser/xinhuaFactored.ser.gz', path_to_jar='stanford-parser.jar',path_to_models_jar='stanford-parser-3.5.1-models.jar')

结合这两个更改，我可以匹配在线解析器(为了匹配您的输出格式，我还必须将返回的listiterator强制转换为列表)：

^{pr2}$

更新1:

我意识到你可能也在寻找一种更像网站上的输出格式，在这种情况下，这是可行的：for tree in parser.raw_parse(s):

print tree # or print tree.pformat().encode('utf-8') to force an encoding

更新2:classify.decisiontree.DecisionTreeClassifier.pp → pretty_format

metrics.confusionmatrix.ConfusionMatrix.pp → pretty_format

sem.lfg.FStructure.pprint → pretty_format

sem.drt.DrtExpression.pretty → pretty_format

parse.chart.Chart.pp → pretty_format

Tree.pprint() → pformat

FreqDist.pprint → pformat