拓端tecdat|如何从xml文件创建R语言数据框dataframe

最近我们被要求撰写关于数据框的研究报告,包括一些图形和统计输出。

问题重现 

软件:R语言

环境:windows

问题描述:我有一个XML文档文件。文件的一部分如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<List>
<SubCategory>
<ID>BO</ID>
<Name>Bookcases</Name>
</SubCategory>
<SubCategory>
<ID>CH</ID>
<Name>Chairs</Name>
</SubCategory>
<SubCategory>
<ID>LA</ID>
<Name>Labels</Name>
</SubCategory>
<SubCategory>
<ID>TA</ID>
<Name>Tables</Name>
</SubCategory>
<SubCategory>
<ID>ST</ID>
<Name>Storage</Name>
</SubCategory>
<SubCategory>
<ID>FU</ID>
<Name>Furnishings</Name>
</SubCategory>
<SubCategory>
<ID>AR</ID>
<Name>Art</Name>
</SubCategory>
<SubCategory>
<ID>PH</ID>
<Name>Phones</Name>
</SubCategory>
<SubCategory>
<ID>BI</ID>
<Name>Binders</Name>
</SubCategory>
<SubCategory>
<ID>AP</ID>
<Name>Appliances</Name>
</SubCategory>
<SubCategory>
<ID>PA</ID>
<Name>Paper</Name>
</SubCategory>
<SubCategory>
<ID>AC</ID>
<Name>Accessories</Name>
</SubCategory>
<SubCategory>
<ID>EN</ID>
<Name>Envelopes</Name>
</SubCategory>
<SubCategory>
<ID>FA</ID>
<Name>Fasteners</Name>
</SubCategory>
<SubCategory>
<ID>SU</ID>
<Name>Supplies</Name>
</SubCategory>
<SubCategory>
<ID>MA</ID>
<Name>Machines</Name>
</SubCategory>
<SubCategory>
<ID>CO</ID>
<Name>Copiers</Name>
</SubCategory>
</List>

从这个XML文件中,我想创建一个具有ID,name 列的R数据框。请注意,name和ID应包含变量的所有级别。

解决方案

假设这是正确的taxlots.shp.xml文件:

<?xml version="1.0" encoding="UTF-8"?>
<List>
<SubCategory>
<ID>BO</ID>
<Name>Bookcases</Name>
</SubCategory>
<SubCategory>
<ID>CH</ID>
<Name>Chairs</Name>
</SubCategory>
<SubCategory>
<ID>LA</ID>
<Name>Labels</Name>
</SubCategory>
<SubCategory>
<ID>TA</ID>
<Name>Tables</Name>
</SubCategory>
<SubCategory>
<ID>ST</ID>
<Name>Storage</Name>
</SubCategory>
<SubCategory>
<ID>FU</ID>
<Name>Furnishings</Name>
</SubCategory>
<SubCategory>
<ID>AR</ID>
<Name>Art</Name>
</SubCategory>
<SubCategory>
<ID>PH</ID>
<Name>Phones</Name>
</SubCategory>
<SubCategory>
<ID>BI</ID>
<Name>Binders</Name>
</SubCategory>
<SubCategory>
<ID>AP</ID>
<Name>Appliances</Name>
</SubCategory>
<SubCategory>
<ID>PA</ID>
<Name>Paper</Name>
</SubCategory>
<SubCategory>
<ID>AC</ID>
<Name>Accessories</Name>
</SubCategory>
<SubCategory>
<ID>EN</ID>
<Name>Envelopes</Name>
</SubCategory>
<SubCategory>
<ID>FA</ID>
<Name>Fasteners</Name>
</SubCategory>
<SubCategory>
<ID>SU</ID>
<Name>Supplies</Name>
</SubCategory>
<SubCategory>
<ID>MA</ID>
<Name>Machines</Name>
</SubCategory>
<SubCategory>
<ID>CO</ID>
<Name>Copiers</Name>
</SubCategory>
</List>

XML格式的数据很少以允许该xmlToDataFrame功能正常工作的方式进行组织。最好提取列表中的所有内容,然后将列表绑定到数据框中:

data <- xmlParse("ProductSubcategory.xml")

xml_data <- xmlToList(data)

dataDictionary <- xmlToDataFrame(getNodeSet(data,"//SubCategory"))  


最受欢迎的见解

1.如何解决线性混合模型中畸形拟合(SINGULAR FIT)的问题

2.在UBUNTU虚拟机上安装R软件包

3.WINDOWS中用命令行执行R语言命令

4.R语言GGSURVPLOT绘制生存曲线报错 : OBJECT OF TYPE ‘SYMBOL‘ IS NOT SUBSETTABLE

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值