java中文乱码问题----常见编码类型

本文探讨了Java中出现中文乱码问题的原因,源于计算机对字符编码的处理。详细介绍了ASCII、GB**(GB2312、GBK、GB18030)和Unicode(UTF-8、UTF-16、UTF-32)等编码类型,解释了Unicode作为解决乱码问题的统一字符集,并阐述了各编码的存储特点和适用场景。
摘要由CSDN通过智能技术生成

        在java里面的编码问题是一个非常常见的问题,最近在玩网络爬虫,在我写的一个最简单的爬虫示例里面,我发现我爬知乎首页和百度百科的源代码出现了乱码。知乎的首页爬出来的数据,中文能正常显示,而百度百科的首页爬出来的数据中文全部是乱码。这让我想起来总结一下java中编码 中文乱码的问题,不能每次出错了就百度,要搞清楚其中的原理,顺便做个总结。

1. 问题的起源

        对于计算机而言,它只认识0和1,不管是在本地磁盘还是内存中,所有的数据(包括文本,图片,视频)等等都是以二进制的形式保存。

字符是指计算机中使用的字母、数字、字和符号,包括:1、2、3、A、B、C、~!·#¥%……—*()——+等等。

字符的编码:不同字符对应于二进制的规则。

字符编码的集合就是字符集。

        在早期,只在老美那儿,只需要编码26个字母和一些常用的特殊字符,所以一个字节完全够用。但是随着计算机技术的发展ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值