今日,Stanford NLP 团队发布了包含 53 种语言预训练模型的自然语言处理工具包 StanfordNLP,该工具包支持 Python 3.6 及之后版本,并基于 PyTorch,支持多种语言的完整文本分析管道,包括分词、词性标注、词形归并和依存关系解析,此外它还提供了与 CoreNLP 的 Python 接口。
- Github: https://github.com/stanfordnlp/stanfordnlp …
- Paper: https://nlp.stanford.edu/pubs/qi2018universal.pdf …
- PyPI: https://pypi.org/project/stanfordnlp/ …
以下内容介绍了 StanfordNLP 的相关论文、安装、使用以及设置方法。
StanfordNLP 结合了斯坦福团队参加 CoNLL 2018 Shared Task on Universal Dependency Parsing 使用的软件包,和 Stanford CoreNLP 软件的官方 Python 接口。StanfordNLP 不仅提供 CoreNLP 的功能,还包含一系列工具,可将文本字符串转换为句子和单词列表,生成单词的基本形式、词性和形态特征,以及适用于 70 余种语言中的句法结构。
StanfordNLP 用高度准确的神经网络构建而成,允许使用自己的标注数据进行高效训练和评估。这些模块基于 PyTorch 构建。
StanfordNLP 的特征:
- 可以轻松设置本地 Python 实现;
- 包含进行文本分析的完整神经网络管道(neural network pipeline),包括分词、多词 token(MWT)扩展、词形归并(lemmatization)、词性(POS)和形态特征标记以及依存关系解析;
- 提供在 73 个 treebanks 上的 53 种人类语言的预训练神经模型;
- 官方维护的接入到 CoreNLP 的稳定 Python 接口。
论文:Universal Dependency Parsing from Scratch