gbk2312 & gbk

 ANSI编码   

    unicode和ansi都是字符代码的一种表示形式。   为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。比如:汉字 '中' 在  ANSI编码
中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。   不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。   不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。   
ANSI编码表示英文字符时用一个字节,表示中文用两个字节,而unicode不管表示英文字符还是中文都是用两个字节来表示。

GB2312 字符集
 1.名称的由来
GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,198151实施。
2.特点
GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。
3.包含内容
GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
4.技术特征
1)分区表示:
GB2312中对所收汉字进行了分区处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。
2)双字节表示
两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为高字节,而称第二字节为低字节
高位字节使用了0xA1-0xF7 (01-87(88-94区未有编码)的区号加上0xA0)低位字节使用了0xA1-0xFE (01-94加上0xA0)
5.编码举例
GB2312字符集的第一个汉字字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1
 
GBK 字符集
1.名称的由来
GBKGB2312的扩展,是向上兼容的,因此GB2312中的汉字的编码与GBK中汉字的相同。另外,GBK中还包含繁体字的编码,它与Big5编码之间的关系我还没有弄明白,好像是不一致的。
2. 特点
GBK中每个汉字仍然包含两个字节,第一个字节的范围是0x81-0xFE(即129-254),第二个字节的范围是0x40-0xFE(即64-254)。GBK中有码位23940个,包含汉字21003个。
BIG5 字符集
1.名称的由来
又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。
Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。
2.特点
Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:”(0xA4610xC94A)”(0xDCD10xDDFC)
3.字符编码方法
Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字节,第二个字节称为低位字节。高位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E0xA1-0xFE
各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊字母及特殊符号,另外于0xA259-0xA261,存放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是先按笔划再按部首排序。
4Big5的局限性
尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假名字母。
例如台湾视的异体字,故没有收录字。康熙字典中的一些部首用字()、常见的人名用字()也没有收录到Big5之中。
 
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如果 MySQL 中没有 gbk2312 编码,你可以尝试以下两种方法: 1. 安装 gbk2312 编码包 你可以尝试安装 MySQL 的 gbk2312 编码包,安装方法如下: 1) 下载编码包:可以从网络上下载 MySQL 的 gbk2312 编码包,也可以从官方网站下载。 2) 安装编码包:将编码包解压缩后,将里面的文件复制到 MySQL 的安装目录下的 share/charsets 目录中。 3) 重启 MySQL:重新启动 MySQL 后,就可以在创建数据库时选择 gbk2312 编码了。 2. 使用其他编码 如果安装 gbk2312 编码包不成功,你可以考虑使用其他编码,比如 utf8mb4 编码。在 MySQL 5.7 中,utf8mb4 编码支持更多的字符集,包括汉字等。 你可以按照以下步骤在 MySQL 5.7 中创建一个编码为 utf8mb4 的数据库: 1. 登录 MySQL 控制台或者使用命令行工具,输入以下命令登录: ``` mysql -u root -p ``` 2. 输入密码,登录 MySQL。 3. 创建数据库,输入以下命令: ``` CREATE DATABASE `database_name` CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; ``` 其中,`database_name` 是你想要创建的数据库名。 4. 查看所有数据库,输入以下命令: ``` SHOW DATABASES; ``` 5. 确认数据库是否创建成功,输入以下命令: ``` USE `database_name`; ``` 如果成功,将进入到你刚刚创建的数据库中。 6. 最后,可以使用以下命令检查数据库的编码: ``` SHOW VARIABLES LIKE '%character%'; ``` 如果看到以下结果,说明编码设置成功: ``` +--------------------------+--------------------+ | Variable_name | Value | +--------------------------+--------------------+ | character_set_client | utf8mb4 | | character_set_connection | utf8mb4 | | character_set_database | utf8mb4 | | character_set_filesystem | binary | | character_set_results | utf8mb4 | | character_set_server | utf8mb4 | | character_set_system | utf8 | | character_sets_dir | /usr/share/mysql/charsets/| +--------------------------+--------------------+ ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值