R语言开发之XML文件处理操作

最新推荐文章于 2024-08-20 22:09:13 发布

luyaran

最新推荐文章于 2024-08-20 22:09:13 发布

阅读量5.4k

点赞数 2

分类专栏：原创 R语言开发基础文章标签： R语言 XML文件处理操作 XML

本文链接：https://blog.csdn.net/luyaran/article/details/82767497

版权

原创同时被 2 个专栏收录

868 篇文章 9 订阅

订阅专栏

R语言开发基础

47 篇文章 3 订阅

订阅专栏

XML是万维网上使用标准ASCII文本，内部网和其他地方共享文件格式和数据的文件格式，它代表可扩展标记语言(XML)。与HTML类似，它包含标记标签，但与标记标签描述页面结构的HTML不同，标记标签描述了文件中包含的数据的含义。在R中，我们可以使用“XML”包读取R中的xml文件。

我们接下来通过将以下数据复制到文本编辑器(如记事本)中来创建XMl文件，并且使用.xml扩展名保存文件，并将文件类型选为所有文件(*.*)，内容如下：

<RECORDS>
   <EMPLOYEE>
      <ID>1</ID>
      <NAME>Rick</NAME>
      <SALARY>623.3</SALARY>
      <STARTDATE>1/1/2012</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>

   <EMPLOYEE>
      <ID>2</ID>
      <NAME>Dan</NAME>
      <SALARY>515.2</SALARY>
      <STARTDATE>9/23/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>

   <EMPLOYEE>
      <ID>3</ID>
      <NAME>Michelle</NAME>
      <SALARY>611</SALARY>
      <STARTDATE>11/15/2014</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>

   <EMPLOYEE>
      <ID>4</ID>
      <NAME>Ryan</NAME>
      <SALARY>729</SALARY>
      <STARTDATE>5/11/2014</STARTDATE>
      <DEPT>HR</DEPT>
   </EMPLOYEE>

   <EMPLOYEE>
      <ID>5</ID>
      <NAME>Gary</NAME>
      <SALARY>843.25</SALARY>
      <STARTDATE>3/27/2015</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>

   <EMPLOYEE>
      <ID>6</ID>
      <NAME>Nina</NAME>
      <SALARY>578</SALARY>
      <STARTDATE>5/21/2013</STARTDATE>
      <DEPT>IT</DEPT>
   </EMPLOYEE>

   <EMPLOYEE>
      <ID>7</ID>
      <NAME>Simon</NAME>
      <SALARY>632.8</SALARY>
      <STARTDATE>7/30/2013</STARTDATE>
      <DEPT>Operations</DEPT>
   </EMPLOYEE>

   <EMPLOYEE>
      <ID>8</ID>
      <NAME>Guru</NAME>
      <SALARY>722.5</SALARY>
      <STARTDATE>6/17/2014</STARTDATE>
      <DEPT>Finance</DEPT>
   </EMPLOYEE>

</RECORDS>

在R中，使用xmlParse()函数来读取xml文件，它作为列表存储在R中，如下：

# Load the package required to read XML files.
library("XML")

# Also load the other required package.
library("methods")

# Give the input file name to the function.
result <- xmlParse(file = "input.xml")

# Print the result.
print(result)

接下来，我们再看下对XML数据的处理，如下：

library("XML")
library("methods")

#获取XML文件中存在的节点数
result <- xmlParse(file = "input.xml")
rootnode <- xmlRoot(result)
rootsize <- xmlSize(rootnode)
print(rootsize)

#第一个节点的详细信息
print(rootnode[1])

#获取节点的其它元素
# Get the first element of the first node.
print(rootnode[[1]][[1]])

# Get the fifth element of the first node.
print(rootnode[[1]][[5]])

# Get the second element of the third node.
print(rootnode[[3]][[2]])

#XML转到数据帧
xmldataframe <- xmlToDataFrame("input.xml")
print(xmldataframe)

通过最后一个实例，我们可以把数据转为数据帧，所以我们可以使用数据帧相关函数来读取和操作文件。

好啦，本次记录就到这里了。

如果感觉不错的话，请多多点赞支持哦。。。