byte[]转String后再用String转回byte[]与起始byte[]不一致问题

最新推荐文章于 2022-09-28 20:22:53 发布

识你老鼠

最新推荐文章于 2022-09-28 20:22:53 发布

阅读量1k

点赞数 2

分类专栏： java 文章标签： java string bytearray

本文链接：https://blog.csdn.net/Dust_from_fire/article/details/122969155

版权

java 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文探讨了Java中字节数组与字符串转换过程中出现的字节数组长度变化问题。测试代码展示了使用不同编码（UTF-8与ISO8859-1）时，字节数组大小的差异。关键在于UTF-8的可变长度编码导致字节数组长度变化。解决方案是使用ISO8859-1编码，以确保字节数组与原始字节数组一致。

摘要由CSDN通过智能技术生成

示例:


@Test
	public void test1() throws UnsupportedEncodingException {
		String url = getUrl();
		HttpRequest request = HttpUtil.createGet(url);
		HttpResponse execute = request.execute();
		byte[] bytes = execute.bodyBytes();
		System.out.println("起始byte[]大小" + bytes.length);
		String str = new String(bytes, "utf-8");
		System.out.println("结束byte[]大小"+str.getBytes("utf-8").length);
	}

执行结果：
在这里插入图片描述

使用的编码集是utf-8

.
.
.

问题的解决

原因是默认是用UTF-8编码来生成String的，用System.getProperty(“sun.jnu.encoding”)可以得到当前默认编码是UTF-8。UTF-8是可变长度的编码，原来的字节数组就被改变了。在new String使用其他编码如GBK,GB2312的话一样也会导致字节数组发生变化，因此要想获取String里单字节数组，就应该使用iso8859-1编码。

ISO8859-1通常叫做Latin-1，Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符，其中 0~127的字符与ASCII码相同，它是单字节的编码方式，这样生成的String里的字节数组就跟原来的字节数组一样。