【NLP入门教程】一、字符编码和Unicode

23 篇文章 20 订阅 ¥49.90 ¥99.00

字符编码是一种将字符与数字相互映射的方式,以便计算机可以处理和存储文本信息。在计算机中,所有信息最终都以二进制形式表示,因此字符编码的核心任务就是将字符与二进制数进行映射。随着计算机技术的发展,出现了许多不同的字符编码标准。在本节中,我们将简要介绍字符编码的发展历程以及Unicode的概念。

2.1.1 字符编码的发展

早期的计算机系统主要处理英文文本,因此ASCII(美国标准信息交换码)编码成为了第一个广泛使用的字符编码标准。ASCII使用7位二进制数(128个不同的值)来表示128个字符,包括英文字母、数字、标点符号和一些控制字符。然而,随着计算机技术的全球普及,ASCII编码无法满足其他语言和地区的需求。

为了解决这个问题,各个国家和地区开始开发自己的字符编码标准,如ISO-8859系列、GB2312(中国)、Shift-JIS(日本)等。这些编码标准各自使用8位或16位二进制数来表示更多的字符,但同时也带来了新的问题:不同编码之间的兼容性问题。例如,同一个二进制数在不同编码下可能对应不同的字符,这导致了文本信息在不同系统间传输时可能出现乱码现象。

2.1.2 Unicode简介

为了解决字符编码的兼容性问题,Unicode(统一字符编码)应运而生。Unicode是一种跨平台、跨语言的字符编码方案,它旨在为世界上所有的字符提供一个唯一的数字标识符(码点)。Unicode目前已经收录了超过13万个字符,涵盖了现代文字、历史文字、符号和表情等内容。

Unicode使用的码点长度可变,通常为21位二进制

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晨星同行

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值