如何在Java中读取UTF-8 XML文件–(SAX Parser)

在先前的Java SAX XML示例中 ,如果使用SAX解析纯文本(ANSI)XML文件没有问题,但是,如果解析包含某些特殊UTF-8字符的XML文件,它将提示“ Invalid byte 1 1字节UTF-8序列 ”的异常。

com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: 
Invalid byte 1 of 1-byte UTF-8 sequence.

请参阅以下xml文件,其中包含特殊的UTF-8字符“§”(按Alt + 789

<?xml version="1.0"?>
<company>
	<staff>
		<firstname>yong</firstname>
		<lastname>mook kim</lastname>
		<nickname>§</nickname>
		<salary>100000</salary>
	</staff>
</company>

要解决此问题,只需重写SAX输入源,如下所示:

File file = new File("c:\\file-utf.xml");
InputStream inputStream= new FileInputStream(file);
Reader reader = new InputStreamReader(inputStream,"UTF-8");
    	      
InputSource is = new InputSource(reader);
is.setEncoding("UTF-8");
    	      
saxParser.parse(is, handler);

请参见使用SAX解析器解析Unicode XML文件的完整示例。

package com.mkyong.test;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.Attributes;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

public class ReadXMLUTF8FileSAX 
{
    public static void main( String[] args )
    {
    	try {
    		 
    	      SAXParserFactory factory = SAXParserFactory.newInstance();
    	      SAXParser saxParser = factory.newSAXParser();
    	 
    	      DefaultHandler handler = new DefaultHandler() {
    	 
    	        boolean bfname = false;
    	        boolean blname = false;
    	        boolean bnname = false;
    	        boolean bsalary = false;
    	 
    	        public void startElement(String uri, String localName,
    	            String qName, Attributes attributes)
    	            throws SAXException {
    	 
    	          System.out.println("Start Element :" + qName);
    	 
    	          if (qName.equalsIgnoreCase("FIRSTNAME")) {
    	        	  bfname = true;
    	          }
    	 
    	          if (qName.equalsIgnoreCase("LASTNAME")) {
    	        	  blname = true;
    	          }
    	 
    	          if (qName.equalsIgnoreCase("NICKNAME")) {
    	        	  bnname = true;
    	          }
    	 
    	          if (qName.equalsIgnoreCase("SALARY")) {
    	        	  bsalary = true;
    	          }
    	 
    	        }
    	 
    	        public void endElement(String uri, String localName,
    	                String qName)
    	                throws SAXException {
    	 
    	              System.out.println("End Element :" + qName);
    	 
    	        }
    	 
    	        public void characters(char ch[], int start, int length)
    	            throws SAXException {
    	        	
    	          System.out.println(new String(ch, start, length));
    	        	 
    	        	 
    	          if (bfname) {
    	            System.out.println("First Name : "
    	                + new String(ch, start, length));
    	            bfname = false;
    	          }
    	 
    	          if (blname) {
    	              System.out.println("Last Name : "
    	                  + new String(ch, start, length));
    	              blname = false;
    	           }
    	 
    	          if (bnname) {
    	              System.out.println("Nick Name : "
    	                  + new String(ch, start, length));
    	              bnname = false;
    	           }
    	 
    	          if (bsalary) {
    	              System.out.println("Salary : "
    	                  + new String(ch, start, length));
    	              bsalary = false;
    	           }
    	 
    	        }
    	 
    	      };
    	 
    	      File file = new File("c:\\file.xml");
    	      InputStream inputStream= new FileInputStream(file);
    	      Reader reader = new InputStreamReader(inputStream,"UTF-8");
    	      
    	      InputSource is = new InputSource(reader);
    	      is.setEncoding("UTF-8");
    	      
    	      saxParser.parse(is, handler);
    	      
    	 
    	    } catch (Exception e) {
    	      e.printStackTrace();
    	    }
	  
    }
}

翻译自: https://mkyong.com/java/how-to-read-utf-8-xml-file-in-java-sax-parser/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值