字符编码那些事儿(UTF-8,GBK,Unicode,ASCII)（三）

最新推荐文章于 2022-04-26 23:52:37 发布

hooleeUCAS

最新推荐文章于 2022-04-26 23:52:37 发布

阅读量1.1k

点赞数

分类专栏： Java编程文章标签：乱码字符编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014495327/article/details/40380461

版权

Java编程专栏收录该内容

7 篇文章 1 订阅

订阅专栏

字符解码错误是否是可逆的

我们讨论更加常见的乱码问题。

Web开发中经常会遇到乱码问题，对于初学者来说乱码问题非常恼人。以Java语言为例，如果我们通过Java抓取一个网页的文本，打印之后发现是乱码，我们能否通过String newStr = new String(oldStr.getBytes("oldcharset"), "newcharset")的方式得到正确的字符串？

Java 的String类使用的是Unicode编码方式，对于String类而言，我们可以认为Unicode是所有字符的终极表示形式，无论在创建字符串（比如String(byte[] bytes, Charset charset)）的时候指定的是何种编码，Java语言都会将其转换为Unicode编码。盲目的指定charset会导致三种情况：

一、指定的编码是正确的，bytes数组中的码点能够准确无误的转换成原来的字符串。

二、指定的编码是错误的，但是bytes数组中的码点对于该charset都是有效的，即没有落到无效区域。那么我们也能够得到一个字符串，只不过字符跟原来不同了。

这时我们可以通过String newStr = new String(oldStr.getBytes("oldcharset"), "newcharset")的方式还原出原来的字符。

三、指定的编码是错误的，并且bytes数组中存在一些码点对于该charset是无效的，即这些码点对于该charset没有任何含义。对于无效的码点，会转换成Unicode的REPLACEMENT CHARACTER（Unicode码点0xFFFD）。

这时我们是不能通过String newStr = new String(oldStr.getBytes("oldcharset"), "newcharset")的当时还原原来的字符的。

通过上面的讨论我们得出结论：

l 所有的文本或字符串都会有它相应的编码，只有使用正确的编码才能将字符串正确的显示。

l 由于REPLACEMENT CHARACTER的存在，通常情况下字符串解码错误是不可逆的。因此对于抓取网页文本出现乱码的情况，最好的解决办法就是在第一次解码的时候就选择正确的编码。

参考文献：

Unicode字符表：www.ssec.wisc.edu/~tomw/java/unicode.html

以上内容纯属个人臆测，切不可盲目相信，后果自负哦~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符编码那些事儿(UTF-8,GBK,Unicode,ASCII)（三）

字符解码错误是否是可逆的我们讨论更加常见的乱码问题。Web开发中经常会遇到乱码问题，对于初学者来说乱码问题非常恼人。以Java语言为例，如果我们通过Java抓取一个网页的文本，打印之后发现是乱码，我们能否通过String newStr = new String(oldStr.getBytes("oldcharset"), "newcharset")的方式得到正确的字符串？Java
复制链接

扫一扫

专栏目录

hooleeUCAS CSDN认证博客专家 CSDN认证企业博客

码龄10年

17: 原创

112万+: 周排名

172万+: 总排名

9万+: 访问

: 等级

850: 积分

4: 粉丝

15: 获赞

5: 评论

58: 收藏

私信

关注

热门文章

分类专栏

最新评论

C语言socket UDP广播的发送和接收示例
sblcc123: 广播发送那里不是一定需要bind的，他这里之所以会出现这个问题，我觉得是接收程序中的recvfrom函数里面传入了recvAddr这个结构体地址，你可以在接收程序中重新定义一个sockaddr_in结构体传入，或者你直接把recvfrom函数后面两个参数直接设为NULL试一试，应该就可以了，当然我没有测试，只是最近在做这方面的东东，感觉上应该是这样，不对的话勿怪，只是一个建议，如果有结果的话可以反馈讨论一哈。
C语言socket UDP广播的发送和接收示例
other1999: 发送代码，bind()后才能成功： [code=csharp] struct sockaddr_in saddr; memset(&saddr, 0, sizeof(struct sockaddr_in)); saddr.sin_family = AF_INET; saddr.sin_addr.s_addr = inet_addr("192.168.9.100"); if (bind(brdcFd, (struct sockaddr *)&saddr, sizeof(struct sockaddr))) { printf("bind addr fail, err : %d\r\n", errno); close(brdcFd); return -1; } [/code]
htop CPU使用率计算
fighting_bang: 可惜没有继续更新
一个linux控制台程序demo
hx2222: 第20行那个t，应该改为&current
搜索引擎倒排索引表压缩：gamma编码
sysuhu: 搞不明白为什么要这样编码，这样编码长度不是增加了吗？还请各位大牛指点一二。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。