用C#读xml文档(流模型)

最新推荐文章于 2022-09-06 09:54:04 发布

梓洋may

最新推荐文章于 2022-09-06 09:54:04 发布

阅读量781

点赞数

System.Xml命名空间下，XmlReader和XmlWriter类是用于读写xml文档的抽象类，它们使用流模型
使用XmlReader类读XML文档，它提供对XML数据的快速、非缓存、只向前、只读的访问。

1.XmlReader有3个子类：
1)XmlTextReader：最快的 XmlReader 实现。它检查 XML 格式是否正确，但不支持验证。该读取器不能展开常规实体(dtd中的概念)，不支持默认属性。
XmlReader 在发生 XML 分析错误时引发 XmlException 异常。

2)XmlValidatingReader: 可以使用 DTD 或 Schema 验证数据的 XmlReader 的实现。该读取器还可以展开常规实体并支持默认属性。

3)XmlNodeReader: 从 XmlNode 读取 XML 数据的 XmlReader 的实现

注：读xml文档，一般使用XmlTextReader类

===================================================

2.XmlTextReader 类
1)XmlTextReader把xml文档看作是一个序列化的节点集合，即一个节点流

2)xml文档中的元素的开始标记(节点类型为Element)、元素的属性(Attribute)、元素的文本内容(Text)、标记之间的空白/换行(SignificantWhitespace或Whitespace)、元素的结束标记(EndElement)等都被视为节点。

3)Read()方法是XmlTextReader类的主要实例方法，它执行一次就读节点流中的一个节点
但Read()方法不会自动读取属性节点(Attribute类型的节点)，如果当前节点是Element节点后，下一次被读的节点就是Text(如果当前元素有文本内容)或Whitespace节点(如果当前节点标记预下一个标记之间有空白/换行的话，如果没有空白换行，就没有Whitespace节点)
即Read()方法只会读Element、Text、Whitespace、EndElement等类型的节点

3)如果当前当前节点是Element节点，如果想读元素的属性节点的话，可以使用以下方法：
MoveToAttribute 、MoveToFirstAttribute 、MoveToNextAttribute 等
如果当前节点是Attribute节点，要回到属性所属元素的节点上的话，可使用MoveToElement 方法

4)随着当前节点的节点类型的不同，XmlReader类对象的某些属性也会无效
例如XmlTextReader对象的AttributeCount属性，对于不是Element、DocumentType 和 XmlDeclaration 类型的节点来说，该属性无意义

5)关于SignificantWhitespace/Whitespace节点的处理：
XmlTextReader对象的WhitespaceHandling属性可以指定如何处理空白

3.节点的类型
=====================================================================
节点类型说明   示例 XML
=====================================================================
Attribute 属性    id='123'
---------------------------------------------------------------------
CDATA  CDATA节   <![CDATA[my escaped text]]>
---------------------------------------------------------------------
Comment 注释   
---------------------------------------------------------------------
Document 作为文档树的根的文档对象提供对整个 XML 文档的访问
---------------------------------------------------------------------
DocumentFragment 文档片段
---------------------------------------------------------------------
DocumentType 文档类型声明  <!DOCTYPE ...>
---------------------------------------------------------------------
Element 元素   <item>
---------------------------------------------------------------------
EndElement 结束元素标记  </item>
---------------------------------------------------------------------
EndEntity 由于调用 ResolveEntity 而使 XmlReader 到达实体替换的末尾时返回
---------------------------------------------------------------------
Entity   实体声明  <!ENTITY ...>
---------------------------------------------------------------------
EntityReference 对实体的引用  &num;
---------------------------------------------------------------------
None   如果未调用 Read 方法，则由 XmlReader 返回
---------------------------------------------------------------------
Notation 文档类型声明中的表示法 <!NOTATION ...>
---------------------------------------------------------------------
ProcessingInstruction 处理指令 <?pi test?>
---------------------------------------------------------------------
SignificantWhitespace 混合内容模型中标记间的空白或 xml:space="preserve"范围内的空白
---------------------------------------------------------------------
Text   节点的文本内容。可以以Attribute、DocumentFragment、Element、  EntityReference 节点的子节点的形式出现
---------------------------------------------------------------------
Whitespace 标记间的空白
---------------------------------------------------------------------
XmlDeclaration XML 声明  <?xml version='1.0'?>
=====================================================================

4.XmlTextReader应用示例：读一个xml文档-tmp.xml

文档tmp.xml的内容：
-----------------------------------------------------------------------
<?xml version="1.0" encoding="GB2312"?>
<bookstore>
<book name="文化苦旅">
  <author nation="中国" 年代="当代">余秋雨&</author>
  <price>32</price>
  <press>华夏出版社</press>
</book>
</bookstore>
  //文档有一个空白尾行
------------------------------------------------------------------------

C#代码:
------------------------------------------------------------------------
XmlTextReader xr4 = new XmlTextReader("temp.xml"); //装载整个文档到内存
xr4.WhitespaceHandling = WhitespaceHandling.All;    //设置如何处理空白节点
while(xr4.Read())
{
Console.Write((" Type: " + xr4.NodeType).PadRight(20));   //打印节点类型
Console.Write((" Name: " + xr4.Name).PadRight(18));   //打印节点名称
Console.WriteLine(" Value: " + xr4.Value);    //打印节点的值

if (xr4.HasAttributes)   //如果当前节点有属性的话(非元素节点的此属性为null)
{
   int tmp = xr4.AttributeCount;
   for (int i = 0; i < tmp; i++ ) //循环打印元素节点的属性
   {
         xr4.MoveToAttribute(i);  //移动到第n个属性上
  Console.WriteLine((" Type: " + xr4.NodeType).PadRight(20)
    + (" Name: " + xr4.Name).PadRight(16)
    + (" value: " + xr4.Value.PadRight(10))
    + (" AttributeCount: " + xr4.AttributeCount) );
  xr4.MoveToElement();  //回到元素节点
   }
}
}
xr4.Close();  //关闭流对象
Console.ReadLine();
------------------------------------------------------------------------

输出：
----------------------------------------------------------------------------------
Type: XmlDeclaration Name: xml         Value: version="1.0" encoding="GB2312"
Type: Attribute     Name: version   value: 1.0        AttributeCount: 2
Type: Attribute     Name: encoding value: GB2312     AttributeCount: 2
Type: Whitespace    Name:             Value:

Type: Element Name: bookstore Value: //该节点没有属性，AttributeCount为null
Type: Whitespace Name: Value: //该节点没有属性，AttributeCount为null

Type: Element       Name: book        Value:
Type: Attribute     Name: name      value: 文化苦旅       AttributeCount: 1
Type: Whitespace    Name:             Value:

Type: Element       Name: author      Value:
Type: Attribute     Name: nation    value: 中国         AttributeCount: 2
Type: Attribute     Name: 年代        value: 当代         AttributeCount: 2
Type: Text          Name:             Value: 余秋雨&
Type: EndElement    Name: author      Value:
Type: Whitespace    Name:             Value:

Type: Element       Name: price       Value:
Type: Text          Name:             Value: 32
Type: EndElement    Name: price       Value:
Type: Whitespace    Name:             Value:

Type: Element       Name: press       Value:
Type: Text          Name:             Value: 华夏出版社
Type: EndElement    Name: press       Value:
Type: Whitespace    Name:             Value:

Type: EndElement Name: book Value: //即book元素的结束标记</book>
Type: Whitespace Name: Value:

Type: EndElement Name: bookstore Value: //即结束标记</bookstore>
Type: Whitespace Name: Value: //文档的空白尾行
----------------------------------------------------------------------------------

5.XmlTextReader类的常用方法
1)在元素节点和属性节点之间移动
如果当前节点是元素节点，并且该元素拥有属性的话：
·使用MoveToAttribute()方法可以移动到属性节点，该方法要求指定属性名或属性的位置
·使用MoveToFirstAttribute()方法可以移动到第一个属性上，并返回true
·如果当前节点是元素节点，使用MoveToNextAttribute()方法等效于MoveToFirstAttribute方法。
如果已经移动到了属性节点上，并且存在下一个属性，调用该方法就会移动到下一个属性节点上
否则，读取器位置不变并返回false

如果读取器定位在属性上，使用MoveToElement()方法，则当前节点移动到属性所属的元素节点上。

2)跳过内容－两种方法
·一种方法是调用使用 MoveToContent 方法直接移动到内容节点
MoveToContent()方法检查当前节点以查看它是否是内容节点。
内容节点被定义为任意 Text、CDATA、Element、EndElement、EntityReference 或 EndEntity 节点。如果当前节点不是前述内容节点的类型之一，则将跳过该节点并跳到下一个内容节点或文件结尾。
它一直跳，直到找到下一个内容节点或到文件的结尾才停止。
如果当前节点是一个属性节点，则此方法将读取器移回拥有该属性的元素。

示例：
-----------------------------------------------------------------------------
if (reader.MoveToContent() == XmlNodeType.Element && reader.Name == "price")
{
_price = reader.ReadString();
}
-----------------------------------------------------------------------------

·另一种方法是直接调用 Skip 方法，该方法从当前节点跳过所有子节点到下一个同级节点
如果当前节点类型为XmlNodeType.Element，则调用skip方法将跳到同级的下一个节点上。
如果当前节点是属性节点，则调用skip方法将跳到属性所属元素节点的下一个同级节点上。

3)读方法
·Read()方法：如果成功读取了下一个节点，则为true；如果没有其他节点可读取，则为false
第一次创建和初始化读取器时，没有可用的信息。必须调用 Read() 读取第一个节点。

·ReadStartElement()方法：
检查当前节点是否为元素(类型为Element的节点)并将读取器推进到下一个节点

·ReadEndElement()方法：
检查当前节点是否为结束标记(类型为EndElement的节点)并将读取器推进到下一个节点

·ReadAttributeValue()方法：
将当前属性节点的属性值分解为一个或多个 Text、EntityReference 或 EndEntity 节点。
如果有可返回的节点，则返回true。如果进行初始调用时读取器不是定位在属性节点上，或者如果已读取了所有属性值，则返回false
如果是空属性(如 misc="")，则返回true，同时将属性值分解为 String.Empty 的单个节点
一般，当读取器移动到一个属性节点上后，通过循环调用ReadAttributeValue方法来分解属性的值

示例：读xml文档 <book genre='novel' misc='sale-item &h; 1987'></book>
---------------------------------------------------------------------
.......
reader.MoveToAttribute("misc");  //移动到属性misc上
while (reader.ReadAttributeValue()) //misc属性值包含实体应用，属性值被分解
{     //分解完属性值后，循环结束
   if (reader.NodeType==XmlNodeType.EntityReference) //遇到实体引用节点
     Console.WriteLine("{0} {1}", reader.NodeType, reader.Name);
   else
     Console.WriteLine("{0} {1}", reader.NodeType, reader.Value);
}
--------------------------------------------------------------------

4)使用字符流进行完整的内容读取
方法ReadChars、ReadBinHex、ReadBase64用于读取大型的流。ReadChars方法原样读取文本 (US-ASCII)，ReadBase64方法解码Base64编码的文本，而ReadBinHex方法则解码binhex编码的数据。
ReadChars、ReadBinHex和ReadBase64方法只能用在元素上。在其他节点类型上使用这些方法不起作用
这三个方法都返回元素的开始标记和结束标记之间的所有内容，包括所有标记，就像在读出流一样。

·ReadChars方法： public int ReadChars(char[] buffer,int index,int count);
将元素的内容读入字符缓冲区。通过连续调用此方法，可以读取当前元素的非常大的嵌入文本流
此方法设计只用于元素节点。其他节点类型导致ReadChars返回0
此方法返回元素的实际字符内容，返回元素开始标记和结束标记之间的所有内容，包括标记
ReadChars方法忽略格式不正确的XML标记
当ReadChars方法已到达字符流的结尾时，它返回值0并且将读取器定位在结束标记之后

·ReadBase64方法： public int ReadBase64(byte[] array,int offset,int len);
和ReadChars方法一样，可以连续调用此方法以读取大的嵌入文本流。
它对Base64内容进行解码，并将解码的二进制字节(例如内联Base64编码的GIF图像)返回到缓冲区中

·ReadBinHex方法： public int ReadBinHex(byte[] array,int offset,int len);
与 ReadChars 一样，可以连续调用此方法以读取大的嵌入文本流。
它对BinHex内容进行解码并将解码的二进制字节(例如内联BinHex编码的GIF图像)返回到缓冲区中

5)读取字符内容
·ReadElementString方法：读取简单文本元素的方法
调用ReadElementString方法时，读取器将移动到下一个节点并读取其简单文本内容，如果该节点不是简单文本元素，则会报错。读取完之后，读取器将再向下移动一个节点

·ReadString方法：元素或文本节点的内容当做字符串读取
如果读取器定位在元素或文本节点以外的位置，或者当前上下文中没有其他文本内容，则返回空字符串

·ReadInnerXml方法：将节点的所有内容(包括子元素、文本内容等)当做字符串读取
如果当前读取器位于开始标记，则该方法返回开始标记与对应的结束标记之间所有的内容
如果当前读取器位于属性节点，则该方法返回属性的值
如果当前节点既非元素，也非属性，则返回空字符串

·ReadOuterXml方法：此方法类似于 ReadInnerXml，但它还返回开始标记和结束标记
如果当前读取器位于开始标记，则该方法返回 <开始标记>..内容..<结束标记/> 字符串
如果当前读取器位于属性节点，则该方法返回属性名="属性值" 字符串
如果当前节点既非元素，也非属性，则返回空字符串

===================================================

2.XmlValidatingReader类
1)XmlValidatingReader类是一个能够提供 DTD、XDR 和 XSD 验证的读取器，能够提供数据验证、解析常规实体的能力和对默认属性的支持，该类也是继承自 XmlReader 类。

2)XmlValidatingReader类基本上类似于XmlTextReader类，但它增加了ValidationType、Schema和 SchemaType、XmlResolver 等新的属性
·ValidationType属性指示验证的类型，其值域为：Auto,DTD,Schema,XDR,None
·Schema属性用于需要多个xdr或xsd参与验证的情况，Schema属性实质上是一个XmlSchemaCollection
·SchemaType属性返回当前节点的类型：XSD内置类型、用户自定义类型(simpleType/complexType)
·XmlResolver属性用于解析外部实体(比如DTD中定义的外部实体)

3)使用XmlValidatingReader类进行验证的最佳操作：
·创建一个XmlTextReader对象tr，将tr对象传给XmlValidatingReader构造函数生成一个对象trv
·设置XmlValidatingReader类型对象trv的ValidationType属性(默认值为Auto)
·为事件ValidationEventHandler定义和分配事件处理方法ValidationEvent
trv.ValidationEventHandler += new ValidationEventHandler(this.ValidationEvent)
因为如果验证出错误时，就会引发trv对象的ValidationEventHandler事件，需要对该事件进行处理
·像使用XmlTextReader类对象那样使用XmlValidatingReader对象trv

4)仅当在调用Read、ReadInnerXml、ReadOuterXml或Skip方法的过程中，且XmlValidatingReader对象trv的ValidationType属性不是ValidationType.None时，才可能发生ValidationEventHandler验证事件
如果不提供ValidationEventHandler事件的处理程序，当遇到级别为Warning的验证错误时，仍会继续读取数据不引发异常。当遇到第一个级别为Error的验证错误时，XmlValidatingReader对象trv将会引发异常XmlException，之后trv对象也将无法重新启动。
当根据架构或DTD进行验证时，如果发生验证错误，也将引发XmlSchemaException异常
如果某个元素报告验证错误，则不验证该元素其余的内容模型，但是将验证其子级。读取器只报告给定元素的第一个错误
ValidationEventHandler事件处理程序可以使用ValidationEventArgs类对象e的Severity属性来保证根据架构验证了XML实例文档。Severity属性可以区分验证错误和验证警告，验证错误(Severity 等于 XmlSeverityType.Error)表示致命错误，而验证警告(Severity 等于 XmlSeverityType.Warning)指示没有可用的架构信息。