golang处理utf16编码数据

最新推荐文章于 2024-06-22 19:31:38 发布

Gopher Fu

最新推荐文章于 2024-06-22 19:31:38 发布

阅读量1.2k

点赞数

文章标签： go golang utf 乱码 unicode

本文链接：https://blog.csdn.net/qq_41928921/article/details/117778826

版权

香港交易所提供的 OMD-C服务将数据以字节流的形式下发，其中汉字使用utf16编码，而 golang 程序则默认utf8编码，会造成解析乱码。
在这里插入图片描述

UTF8和UTF16

UTF-8 使用一至四个字节为每个字符编码，其中大部分汉字采用三个字节编码，少量不常用汉字采用四个字节编码。因为 UTF-8 是可变长度的编码方式，相对于 Unicode 编码可以减少存储占用的空间，所以被广泛使用。

UTF-16 使用二或四个字节为每个字符编码，其中大部分汉字采用两个字节编码，少量不常用汉字采用四个字节编码。UTF-16 编码有大端序和小端序之别，即 UTF-16BE 和 UTF-16LE，在编码前会放置一个 U+FEFF 或 U+FFFE（UTF-16BE 以 FEFF 代表，UTF-16LE 以 FFFE 代表），其中 U+FEFF 字符在 Unicode 中代表的意义是 ZERO WIDTH NO-BREAK SPACE，顾名思义，它是个没有宽度也没有断字的空白。

Go转换utf16

decoder := unicode.UTF16(unicode.LittleEndian, unicode.IgnoreBOM).NewDecoder()
	bs2, err := decoder.Bytes(d[:])
	if err != nil{
		return ""
	}
	return string(bs2)

Gopher Fu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
golang处理utf16编码数据

香港交易所提供的 OMD-C服务将数据以字节流的形式下发，其中汉字使用utf16编码，而 golang 程序则默认utf8编码，会造成解析乱码。UTF-8 使用一至四个字节为每个字符编码，其中大部分汉字采用三个字节编码，少量不常用汉字采用四个字节编码。因为 UTF-8 是可变长度的编码方式，相对于 Unicode 编码可以减少存储占用的空间，所以被广泛使用。UTF-16 使用二或四个字节为每个字符编码，其中大部分汉字采用两个字节编码，少量不常用汉字采用四个字节编码。UTF-16 编码有大端序和小端序之别
复制链接

扫一扫