unicode character set

最新推荐文章于 2022-04-20 17:38:32 发布

weixin_33781606

最新推荐文章于 2022-04-20 17:38:32 发布

阅读量191

点赞数

文章标签： java

原文链接：https://my.oschina.net/xpbug/blog/53137

版权

为什么80%的码农都做不了架构师？>>>

为了不忘记以前看过的unicode规范。决定写此文章，以便于记忆。

UCS 4

byte1 首位为0， 2^7=128个group

byte2 2^8=256个plane

byte3 256 row

byte4 256 cell

group 0 plane0 为Basic Multilingual Plane （BMP).

BMP去掉前面的两个字节就等同于 UCS 2.

Now Unicode 使用了17个plane, 一个 17*2^16个codepoint.

平面15 0xF0000 - 0xFFFFD

平面16 0x100000 - 0x10FFFD

这两个平面定义了大约2^17个码位，作为Private Use Area. PUA给大家自定义。

java里面的string是适用UTF16来表示的。

这里可以看出，BMP里面的字符码点小于2^16,完全可以使用两个字节表示。

BMP以外的字符如何来表示？BMP以外的字符的码点大于2^16，只能使用2个UTF16单位。

怎么区分BMP和BMP以外的字符？在BMP中，保留了0xE000 - 0xF8FF 0xD800-0xDFFF作为代理区。

使用代理区+一个UTF16单元，表示一个BMP以外的字符。

UTF8，16，32都是一种编码转换格式。

在java中，String使用UTF16编码格式。使用codepointAt(offset)来得到offset字符处的unicode码，

如果codepoint大于2^16，说明此处字符需要使用2个UTF16单元。

String str = "XXXXXX";

int i = 0;

while (i < str.length()) {

// 此处字符的unicode码点

int codepoint = str.codepointAt(i);

if (codepoint >= 0x100000000) {

// 此字符占用2个UTF16单元。跳过一个字符。

i++;

}

i++

}

转载于:https://my.oschina.net/xpbug/blog/53137

优惠劵

weixin_33781606

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
unicode character set

为什么80%的码农都做不了架构师？>>> ...
复制链接

扫一扫

详解字符编码与 Unicode

虚幻私塾

09-19

436

将 Code Point 转换成 Code Unit 序列（字符编码表，CEF），再最终将 Code Unit 序列转换成字节序列（字符编码方案，CES），有多种不同的实现方式。之间的区段，是永久保留不映射任何字符的。同理，ASCII、Unicode、UTF-8、UTF-16、UTF-16 LE，都可以笼统的叫做“字符编码”，但每个“字符编码”表示的含义都是不同的。为了让辅助平面编码的两个 Code Unit，都不与基本平面编码的 Code Unit 重叠，就需要利用基本平面中一个特殊的区段了。

The Unicode 2.0 Character Set.htm

03-10

The Unicode 2.0 Character Set.htm

参与评论您还未登录，请先登录后发表或查看评论

字符集与编码系列：Unicode字符集

liudun_cool的博客

10-13

6259

基本概念 1.字符集：要想在计算机中显示文字，必须把文字都收集起来放在一个表中，这个表叫字符集（Charset）。 2.码表：字符集中的每个文字，都分配一个数字码，这叫码表（Code chart）。比如中文 ‘霸’字，在码表中对应的码是38712（十进制），或者9738（十六进制）。 3.编码方式：有了码表，就需要确定哪些文字用几个字节表示，以及如果有多个字节代表一个字，字节的读取顺序，这些就是字符编码方式（Encoding）。虽然为了严谨起见，上面我把字符集和码表分开说明，但实际上很多字符集也给

unicode error三种解决方案

zico_a的博客

11-14

3万+

问题描述：在定义图片路径的时候，系统提示unicode error编解码器无法解码位置，截断\ uXXXX转义，如下图：原因分析：window 读取文件可以用\，但是在字符串中\是被当作转义字符来使用，经过转义之后可能就找不到路径的资源了，例如\t会转义为tab键解决方法： 1.更换为绝对路径的写法 func1("C:\\Users\\renyc") 2.显式声明字符串不用转义（加r） f...

Unicode和Character Sets的详解

handanyin的专栏

11-26

1609

每个软件开发者必须绝对至少需要了解的Unicode和Character Sets的知识（没有借口！）原文：http://www.joelonsoftware.com/articles/Unicode.html by Joel Spolsky 译windam 2003.10.8 星期三你是否曾经对那个神秘的Content-Type标记感

python出现(unicode error) ‘unicodeescape‘ codec can‘t decode bytes in position 2-3：错误的解决方法

qq_55477231的博客

04-20

2万+

出现这个错误的原因是程序把 " \ " 当成了转义字符,所以无法正确读取路径文件。解决方法有两种:1."\"变成"\\" 2."\"改成"/"

Unicode and Character Set Reference (Windows)

11-23

Unicode and Character Set Reference (Windows)

Unicode and Character Set Functions (Windows)

11-23

Unicode and Character Set Functions (Windows)

The Unicode Standard, Version 5.0 (2007)

10-17

Unicode 是基于通用字符集（Universal Character Set）的标准来发展，并且同时也以书本的形式（The Unicode Standard，目前第五版由Addison-Wesley Professional出版，ISBN-10: 0321480910）对外发表。Unicode包含了...

Unicode SynEdit for Delhi7/2010

08-20

originally been designed for ANSI character sets. For the available information check out the "Unicode SynEdit" Web-site at: http://mh-nexus.de/en/unisynedit.php The ANSI version of SynEdit is ...

unicode, character, character set, encoding, utf-8

weixin_33778778的博客

04-20

107

转：http://www.utf.com.cn/article/s1383 这些相关的东西并不复杂, 但非常容易混淆不清, 尤其是最近看了一些这方面的文章, 即使是被认为是权威的出处, 也经常出现冲突矛盾, 和用词不准确, 解释的概念不清楚的情况:1. 字符集和编码方案混为一谈. http://www.utf.com.cn/article/s320 中说: UTF_8字符集 UTF-8...

Unicode Character Set and UTF-8, UTF-16, UTF-32 Encoding

weixin_30390075的博客

03-10

198

在计算机内存中，统一使用unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为utf-8编码。用记事本编辑的时候，从文件读取的utf-8字符被转换为unicode字符到内存里，编码完成保存时再把unicode转换为utf-8保存到文件。浏览网页时，服务器会把动态生成的unicode内容转换为utf-8再传输给浏览器，所以会看到许多网页的源码上会有类似<meta charse...

Unicode Character Set与Multi-Byte Character Set区别

u014311306的博客

07-04

1111

转：https://blog.csdn.net/youxishaonian/article/details/70312438 Unicode Character Set和Multi-Byte Character Set这两个设置有什么区别呢？我们来看一个例子: 有一个程序需要用MessageBox弹出提示框： #include "windows.h" void TestMessageBo...

【转】Encoding、 Code Page 、Character Set 、Unicode的区别是什么？

msdnchina的专栏@JiNan,ShanDong

09-20

483

What’s the difference between an Encoding, Code Page, Character Set and Unicode? Encoding, Code Page and Character Set are often used interchangeably, even when that isn't strictly correct. There ar...

MySQL5.7 — Character Set、Unicode

shellching的专栏

04-11

2704

转自：MySQL5.7 — Character Set、Unicode - 知乎版本：MySQL5.7 操作系统：Win10 一、字库、字符集、编码、XX码在冯诺依曼结构体系中，信息都以二进制的方式在计算机中存储。信息是指令还是数据取决于CPU是如何读取的。当CPU通过代码段寄存器和指令指针寄存器寻址时(CS:IP)，取出的信息就被认为是指令，当CPU通过数据段寄存器和内存单元相对地址进行寻址时(DS:[xxxx])，取出的信息就被认为是常规数据。如同DS与CS决定了二进制信息是代码

Unicode编码详解(一)：Unicode简介及其分类

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交