情感分析xml数据集利用Python将xml文件中的句子提取出来

Python将xml文件中的句子提取出来在这里插入图片描述

有时候的数据集是xml格式的,在数据处理时候只需要提取xml文件中的句子和标注了的数据,其实最简单的方法是直接用EXCEL表打开并保存为csv文件,如图所示:
在这里插入图片描述
如果是用python的话也可以实现。

Python实现


import xml.dom.minidom
from pandas import Series


# 存储句子
data_list = []
# 存储句子标注极性
label_list = []

if __name__ == '__main__':
    # 获取xml文件
    document_tree = xml.dom.minidom.parse('SMP2019_ECISA_Train.xml')
    # 获取文件中的元素
    collection = document_tree.documentElement
    # 打印文件
    # print(collection.toxml())

    # 获取xml文件中子标签内容
    Doc_node = collection.getElementsByTagName("Doc")
    for i in range(len(Doc_node)):
        sentence_node = Doc_node[i].getElementsByTagName("Sentence")
        for j in range(len(sentence_node)):
            # 剔除没有标注的数据
            if sentence_node[j].getAttribute("label") == "0" \
                    or sentence_node[j].getAttribute("label") == "1" \
                    or sentence_node[j].getAttribute("label") == "2":
                # 获取句子数据
                sentence = sentence_node[j].firstChild.data
                # 获取句子标注的极性
                label = sentence_node[j].getAttribute("label")
                data_list.append(sentence)
                label_list.append(label)
    # 打印数据
    for l in range(len(data_list)):
        print(data_list[l])
        # print('\n')

##结果如下
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值