LUISUAN_TECH的博客

DeepSeek模型如何理解人类语言

关注

DeepSeek模型如何理解人类语言

关注数：文章数：3 文章阅读量：1206 文章收藏量：7

作者: 绿算技术

智慧加载安全存取绿色低碳异构统管

展开

专栏收录文章

从代码到对话：DeepSeek模型如何理解人类语言【3】

Unicode编码的最大位数为21位。在UTF-32编码中，它直接采用Unicode编码，并通过在前面补充零的方式将其扩展至32位。然而，由于UTF-32编码会导致显著的存储空间浪费，因此它的实际应用非常有限。固定长编码，每个字符占用4个字节。

原创 2025-03-04 18:00:00 · 233 阅读 · 0 评论
从代码到对话：DeepSeek模型如何理解人类语言【2】

例如，“川”字的Unicode码为0x17B8C，在UTF-16编码格式中表示为110110yy yyyyyyyy 110111xx xxxxxxxx。UTF-16使用4个字节，这4个字节分成前后两部分，每个部分各2个字节。在这两个字节中，前六位的二进制数分别固定为110110和110111，而后十位的二进制数则代表Unicode码减去0x10000后的结果，其中yy yyyyyyyy 和xx xxxxxxxx分别表示这两部分的数值。可变长编码，使用2个或4个字节来表示一个字符。

原创 2025-03-04 13:58:43 · 333 阅读 · 0 评论
从代码到对话：DeepSeek模型如何理解人类语言【1】

例如，“马”字的Unicode编码为U+9A6C，其编号为39532，位于第三个范围（2048-65535）内。例如，英文字符“A”的Unicode编号是U+0041，而汉字“汉”的Unicode编号是U+6C49。Unicode编码为每种语言中的每个字符设定了统一且唯一的二进制编码，这使得DeepSeek模型能够通过Unicode编码来表示和处理全球各种语言的文本。可变长编码，使用1到4个字节来表示一个字符。对于ASCII码的0-127范围内的字符，UTF-8仅使用一个字节，与ASCII完全兼容。

原创 2025-03-03 18:00:00 · 640 阅读 · 0 评论