scala读取xml的原始坑！“ columnNumber: 1; 前言中不允许有内容。”

最新推荐文章于 2023-09-29 21:43:40 发布

PMP4561705

最新推荐文章于 2023-09-29 21:43:40 发布

阅读量6.2k

点赞数 2

分类专栏：大数据文章标签： xml spark 机器学习

本文链接：https://blog.csdn.net/PMP4561705/article/details/53264200

版权

大数据专栏收录该内容

22 篇文章 0 订阅

订阅专栏

scala读取xml的原始坑！“ columnNumber: 1; 前言中不允许有内容。”

用spark搞机器学习，需要从XML中读取训练数据，代码是这样的

val fileName = "data\\Posts.small1.xml"

    val textFile = sc.textFile(fileName)
    //移除xml的页眉和页脚
    val postsXml = textFile.map(_.trim).
      filter(!_.startsWith("<?xml version=")).
      filter(_ != "<posts>").
      filter(_ != "</posts>")

    println("取出也没和页脚")
    //Scala语言自动转换所有xml代码，像“<a>”转换到实际标签“<a>”。
    // 我们也将连接标题和主体、移除所有的不必要的标签以及来自主体和所有空间副本的新行字符。
    val postsRDD = postsXml.map { s =>
      val xml = XML.loadString(s)
      val id = (xml \ "@Id").text
      val tags = (xml \ "@Tags").text
      val title = (xml \ "@Title").text
      val body = (xml \ "@Body").text
      val bodyPlain = ("<\\S+>".r).replaceAllIn(body, " ")
      val text = (title + " " + bodyPlain).replaceAll("\n", " ").replaceAll("( )+", " ");
      Row(id, tags, text)
    }

结果出现了著名的org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; 前言中不允许有内容。错误。

百度娘子告诉我：造成该异常原因：配置文件头部配置的xsd版本信息不正确，造成解析时出错。

遇到这样的bug是因为xml文件第一句出错。

解决方法：

1、确保xml的第一句<?xml version="1.0" encoding="UTF-8"?>之前没有空格。

2、复制网上的xml文件的时候，建议这一句<?xml version="1.0" encoding="UTF-8"?>不要复制，保留生成文件的时候生成的这句代码<?xml version="1.0" encoding="UTF-8"?>，这样就能避免这种bug出现。

其实最简单的解决办法是

把xml文件用EditPlus之类的工具打开，再保存为UTF-8编码，不是UTF-8+DOM。

PMP4561705

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
scala读取xml的原始坑！“ columnNumber: 1; 前言中不允许有内容。”

scala读取xml的原始坑！“ columnNumber: 1; 前言中不允许有内容。”用spark搞机器学习，需要从XML中读取训练数据，代码是这样的val fileName = "data\\Posts.small1.xml" val textFile = sc.textFile(fileName) //移除xml的页眉和页脚 val postsXm
复制链接

扫一扫