本文是对ace2005-preprocessing代码的解读。
数据集介绍
英文的数据包括以下文件夹:NW(Newswire)、BN(Broadcast News)、BC(Broadcast Conversation)、WL(Weblog)、UN(UsenetNewsgroups /Discussion Forum)、CTS(Conversational Telephone Speech),主要关注内容为下面两种文件。
- .sgm文件:原始文本文件,编码格式为UTF-8,每行的结尾使用UNIX-style。
- .apf.xml:标注结果文件。
文件划分:
40个文件作为test set, 30个文件作为development set,529个文件作为训练集。划分的文件保存在data_list.csv中。
主要流程:
读取文件和划分数据集
解析过程:
- 解析xml文件
通过解析apf.xml得到entity_mentions和event_mentions。解析xml文件可以使用ElementTree。
对于entity_mention解析出下面内容:(存在entity、value和timex2标签,分别表示实体,值(Numeric、Contact-Info、Crime、Job-Title和