ccmt2019——sgm文件解析

ccmt2019的开发集和测试集使用sgm文件给出的,它其实就是一个xml文件,使用python的lxml解析即可。
坑点:

  1. 官方给的xml有毒,有些特殊符号需要自己转换,例如:&。需要先手动把所有的&替换为&
  2. 注意要核对docid和seg id,存在源语中有 而目标语没有的情况。这一点比较坑。
__author__ = 'jmh081701'

from xml.dom.minidom import  parse
import xml.dom.minidom

def get_sentence(file):
    #读取文件
    rst={}
    domTree = parse(file)
    docs = domTree.getElementsByTagName("doc")

    for doc in docs:
        # print("docid",doc.getAttribute('docid'))
        docid=doc.getAttribute('docid')
        rst.setdefault(doc.getAttribute('docid'),{})
        segs = doc.getElementsByTagName('seg')
        for seg in segs:
            #print("id:%d,sentence:%s"%(int(seg.getAttribute('id')),seg.childNodes[0].data))
            rst[docid].setdefault(seg.getAttribute('id'), seg.childNodes[0].data)
    return  rst
en_src=get_sentence(file=r"E:\TempWorkStation\ccmt2019\dataset\NJU-newsdev2017-enzh\NJU-newsdev2017-enzh\newsdev2017-enzh-src.en.sgm")
cn_ref=get_sentence(file=r"E:\TempWorkStation\ccmt2019\dataset\NJU-newsdev2017-enzh\NJU-newsdev2017-enzh\newsdev2017-enzh-ref.zh.sgm")
with open(".//corpus//en_dev.txt","w") as en_fp:
    with open(".//corpus//cn_dev.txt","w") as cn_fp:
        for docid in en_src:
            for id in en_src[docid]:
                if (docid in cn_ref) and (id in cn_ref[docid]):
                    en_fp.writelines(en_src[docid][id]+"\n")
                    cn_fp.writelines(cn_ref[docid][id]+"\n")
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值