Stanford CoreNLP生成CoNLL数据格式

最新推荐文章于 2024-05-08 17:29:57 发布

Gamma Gao

最新推荐文章于 2024-05-08 17:29:57 发布

阅读量7k

点赞数 1

分类专栏：机器学习文章标签： NLP CoreNLP CoNNL 语言学自然语法处理

本文链接：https://blog.csdn.net/gammag/article/details/78523053

版权

机器学习专栏收录该内容

5 篇文章 3 订阅

订阅专栏

Stanford CoreNLP + Java 8:

 
 https://stanfordnlp.github.io/CoreNLP/index.html 

  斯坦福大学CoreNLP提供了一套人类语言技术工具。它可以给出词的基本形式，词类，是否是公司名称，人名等，规范日期，时间和数量，根据短语和句法依赖标记句子的结构，指出哪些名词短语是指相同的实体，表示情感，提取实体提及的特定或开放的类关系，得到人们所说的引号等等。 

CoNLL X

  CoNLL是一个由SIGNLL(ACL's Special Interest Group on Natural Language Learning: 计算语言学协会的自然语言学习特别兴趣小组）组织的顶级会议。CoNLL X (如CoNLL 2006)是它定义的语言学数据格式。 

以CoNLL 2006为例，通过corenlp如何生成英语句子的CoNLL格式：

  例句：The system, known as the society for worldwide interbank financial telecommunication, or swift, oversees the network used by most of the world's largest banks to conduct financial wire transfers. 

  保存为english.txt 

第一步：生成语法树：

  java -Xmx2g -cp "stanford-corenlp-full-2017-06-09/*" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn" edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz english.txt >english.tree 

第二步：通过语法树生成CoNLL格式：

  java -Xmx2g -cp "stanford-corenlp-full-2017-06-09/*" edu.stanford.nlp.trees.EnglishGrammaticalStructure -treeFile english.tree -conllx >english.conll.txt