获取xml时,出现“(十六进制值 0x1F)是无效的字符之类Xml异常的解决办法

获取xml时,出现“(十六进制值 0x1F)是无效的字符之类Xml异常的解决办法
2008-12-19 10:44

最近做新闻采集器,需要获取很多站点的xml,加载个别站点经常出现“(十六进制值 0x1F)是无效的字符”问题,百思不的其解。对于问题站点xml的处理,开始的思路是既然直接用 XmlDocument对象的Load()方法不行,就用LoadXML() ,用HttpWebRequest 获取url读到流里再转为xml,中间可以加一些非有效字符的过滤处理,但仍然无效,仅仅解决了请求超时的问题...

问题搁置了1周后,终于在今天解决了。

其实很简单,只加一条语句就搞定了

XmlDocument doc = new XmlDocument();  

doc.Normalize();

         // 摘要:
        //     将此 XmlNode 下子树完全深度中的所有 XmlText 节点都转换成“正常”形式,在这种形式中只有标记(即标记、注释、处理指令、CDATA
        //     节和实体引用)分隔 XmlText 节点,也就是说,没有相邻的 XmlText 节点。

以下是转一位仁兄的贴:

最近碰到一个问题,我的一个把数据库中记录的信息暴露出来的Web Service调用时候出问题了。报下面的错误信息:

System.InvalidOperationException was unhandled
Message="XML 文档(1, 823)中有错误。"
Source="System.Xml"
    Message="“”(十六进制值 0x0E)是无效的字符。 行 1,位置 823。"
    Source="System.Xml"

当这个错误发生时,Web Service 服务器端不会有任何错误,而调用这个 Web Service 的客户端则会报上述错误。
是何原因导致的这个问题呢?
答案很简单,是WEB Service 暴露的XML文档中存在低序位非打印 ASCII 字符所致。
我们查看 Web Service 返回的XML 文档文档中,会有下面的XML文档节:其中的 就是低序位 ASCII 字符。 对应的字符如后:

<Value> 在神奇天地裏誰叱咤風雨</Value>

会导致这些问题的 低序位非打印 ASCII 字符包含以下字符:
#x0 - #x8 (ASCII 0 - 8)
#xB - #xC (ASCII 11 - 12)
#xE - #x1F (ASCII 14 - 31)

下面就是一个简单演示这个问题的控制台程序,
为了简单起见,这里没有建立 WebService, 而是把一个类XML序列化存储到文件,然后再把这个文件反序列化读取出来:
其中的这个类的Value值中,放了一个低序位非打印 ASCII 字符。
执行这个控制台程序,就会报异常。“XML 文档(3, 12)中有错误。”

using System;
using System.Xml.Serialization;
using System.IO;
using System.Text;
using System.Globalization;
namespace TextSerialize
{
[Serializable]
public class MyClass
{
public string Value { get; set; }
}
class Program
{
static void Main(string[] args)
{
string fileName = "d://1.txt";
MyClass c = new MyClass();
c.Value = string.Format("在神奇{0}天地裏誰叱咤風雨", Convert.ToChar(14));
SaveAsXML(c, fileName, Encoding.UTF8);
object o = ConvertFileToObject(fileName, typeof(MyClass), Encoding.UTF8);
MyClass d = o as MyClass;
if (d != null) Console.WriteLine(d.Value);
else Console.WriteLine("null");
Console.ReadLine();
}
/// <summary>
/// 序列化
/// </summary>
/// <param name="objectToConvert"></param>
/// <param name="path"></param>
/// <param name="encoding"></param>
public static void SaveAsXML(object objectToConvert, string path, Encoding encoding)
{
if (objectToConvert != null)
{
Type t = objectToConvert.GetType();
XmlSerializer ser = new XmlSerializer(t);
using (StreamWriter writer = new StreamWriter(path, false, encoding))
{
ser.Serialize(writer, objectToConvert);
writer.Close();
}
}
}
/// <summary>
/// 反序列化
/// </summary>
/// <param name="path"></param>
/// <param name="objectType"></param>
/// <param name="encoding"></param>
/// <returns></returns>
public static object ConvertFileToObject(string path, Type objectType, Encoding encoding)
{
object convertedObject = null;
if (!string.IsNullOrEmpty(path))
{
XmlSerializer ser = new XmlSerializer(objectType);
using (StreamReader reader = new StreamReader(path, encoding))
{
convertedObject = ser.Deserialize(reader);
reader.Close();
}
}
return convertedObject;
}
}
}

上面提到的Web Service 的那个问题,跟这个演示程序是一样的。

我们需要被序列化的内容中,存在 低序位非打印 ASCII 字符 时, .net 会给我们正常序列化, 会自动把 低序位非打印 ASCII 字符 转换成 &#x 编码的字符(这个XML规范中要求这么做的)。

但是,反序列化时候,如果需要反序列化的内容如果存在 &#x 编码的字符(映射到低序位非打印 ASCII 字符),则反序列化就会出错。

 

如果解决这个问题呢?

当然,最彻底的解决方法是修改反序列化的代码,让这些字符不会出错。但这个东西很多时候不归我们控制。这个方案不可行。

下一个方案就是剔除这些捣乱的字符。

我这里要给出的方案,是对这些字符序列化时作一次预处理,反序列化时,作一次反向处理。
这里为了演示的更有意义,我这里处理逻辑就是把 低序位非打印 ASCII 字符 转换成 &#x 编码的字符 ,和把&#x 编码的字符 转换成 低序位非打印 ASCII 字符。
这样就可以使用我这里提供的函数,实现更多的处理逻辑。这两个函数的代码如下:

 

        /// <summary>
/// 把一个字符串中的 低序位 ASCII 字符 替换成 &#x  字符
/// 转换  ASCII  0 - 8  -> &#x0 - &#x8
/// 转换  ASCII 11 - 12 -> &#xB - &#xC
/// 转换  ASCII 14 - 31 -> &#xE - &#x1F
/// </summary>
/// <param name="tmp"></param>
/// <returns></returns>
public static string ReplaceLowOrderASCIICharacters(string tmp)
{
StringBuilder info = new StringBuilder();
foreach (char cc in tmp)
{
int ss = (int)cc;
if (((ss >= 0) && (ss <= 8)) || ((ss >= 11) && (ss <= 12)) || ((ss >= 14) && (ss <= 32)))
info.AppendFormat("&#x{0:X};", ss);
else info.Append(cc);
}
return info.ToString();
}
/// <summary>
/// 把一个字符串中的下列字符替换成 低序位 ASCII 字符
/// 转换  &#x0 - &#x8  -> ASCII  0 - 8
/// 转换  &#xB - &#xC  -> ASCII 11 - 12
/// 转换  &#xE - &#x1F -> ASCII 14 - 31
/// </summary>
/// <param name="input"></param>
/// <returns></returns>
public static string GetLowOrderASCIICharacters(string input)
{
if (string.IsNullOrEmpty(input)) return string.Empty;
int pos, startIndex = 0, len = input.Length;
if (len <= 4) return input;
StringBuilder result = new StringBuilder();
while ((pos = input.IndexOf("&#x", startIndex)) >= 0)
{
bool needReplace = false;
string rOldV = string.Empty, rNewV = string.Empty;
int le = (len - pos < 6) ? len - pos : 6;
int p = input.IndexOf(";", pos, le);
if (p >= 0)
{
rOldV = input.Substring(pos, p - pos + 1);
// 计算 对应的低位字符
short ss;
if (short.TryParse(rOldV.Substring(3, p - pos - 3), NumberStyles.AllowHexSpecifier, null, out ss))
{
if (((ss >= 0) && (ss <= 8)) || ((ss >= 11) && (ss <= 12)) || ((ss >= 14) && (ss <= 32)))
{
needReplace = true;
rNewV = Convert.ToChar(ss).ToString();
}
}
pos = p + 1;
}
else pos += le;
string part = input.Substring(startIndex, pos - startIndex);
if (needReplace) result.Append(part.Replace(rOldV, rNewV));
else result.Append(part);
startIndex = pos;
}
result.Append(input.Substring(startIndex));
return result.ToString();
}

 

这样,我们这个演示程序的 Main 函数修改为下面的代码,也不会有任何错误发生。

 

        static void Main(string[] args)
{
Console.WriteLine(GetLowOrderASCIICharacters("123456&#x50000"));
Console.WriteLine(GetLowOrderASCIICharacters("123456&#x5"));
Console.WriteLine(GetLowOrderASCIICharacters("&#x5"));
Console.WriteLine(GetLowOrderASCIICharacters("0123 456789"));
Console.WriteLine(GetLowOrderASCIICharacters("/f"));
Console.WriteLine(GetLowOrderASCIICharacters(" =-1")); Console.WriteLine(GetLowOrderASCIICharacters(" ")); Console.WriteLine(GetLowOrderASCIICharacters(" ")); string fileName = "d://1.txt"; MyClass c = new MyClass(); c.Value = string.Format("在神奇{0}天地裏誰叱咤風雨", Convert.ToChar(14)); c.Value = ReplaceLowOrderASCIICharacters(c.Value); SaveAsXML(c, fileName, Encoding.UTF8); object o = ConvertFileToObject(fileName, typeof(MyClass), Encoding.UTF8); MyClass d = o as MyClass; if (d != null) { d.Value = GetLowOrderASCIICharacters(d.Value); Console.WriteLine(d.Value); } else Console.WriteLine("null"); Console.ReadLine(); }
小结 :低序位非打印 ASCII 字符 在很多时候会给我们的系统带来问题,这部分字符必须作特殊处理。
 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
你可以使用 Qt 的 QDomDocument 类来创建和编辑 XML 文件。 以下是一个示例代码,演示如何创建一个具有两个元素 A 和 B 的 XML 文件,并将其保存到磁盘上的文件: ```cpp #include <QtXml> int main() { // 创建 QDomDocument 对象 QDomDocument doc; // 创建根元素 QDomElement root = doc.createElement("Root"); doc.appendChild(root); // 创建元素 A 和 B QDomElement elemA = doc.createElement("A"); QDomElement elemB = doc.createElement("B"); // 设置元素 A 和 B 的文本内容 elemA.appendChild(doc.createTextNode("0x1000")); elemB.appendChild(doc.createTextNode("0x2000")); // 将元素 A 和 B 添加到根元素 root.appendChild(elemA); root.appendChild(elemB); // 将 XML 文件保存到磁盘上的文件 QFile file("example.xml"); if (file.open(QIODevice::WriteOnly | QIODevice::Text)) { QTextStream stream(&file); stream << doc.toString(); file.close(); } return 0; } ``` 在上面的代码,我们首先创建了一个 QDomDocument 对象,并为其创建了一个根元素。接下来,我们创建了两个元素 A 和 B,并将它们的文本内容设置为 "0x1000" 和 "0x2000"。最后,我们将这两个元素添加到根元素,并将整个文档保存到一个名为 "example.xml" 的文件。 在保存 XML 文件,我们使用了 QTextStream 类来将 QDomDocument 对象转换为字符串,并使用 QFile 类将字符串写入文件。请注意,我们在打开文件使用了 QIODevice::WriteOnly 和 QIODevice::Text 标志,以确保以文本格式写入文件。 希望这可以帮助到你。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值