decode,encode 编码方式介绍

如果在python源码中,出现了非ASCLL字符,就需要加上:

# code: UTF-8
或者

#-*- coding: UTF-8 -*-


我现在比较常见编码介绍:

1.GBK编码:是汉字编码标准之一,是在 GB2312-80 标准基础上的内码扩展规范,使用了双字节编码

2.ASCII编码:是对英语字符和二进制之间的关系做的统一规定

3.Unicode编码:这是一种世界上所有字符的编码。当然了它没有规定的存储方式。

4.UTF-8编码:是 Unicode Transformation Format - 8 bit 的缩写, UTF-8 是 Unicode 的一种实现方式。它是可变长的编码方   式,可以使用 1~4 个字节表示一个字符,可根据不同的符号而变化字节长度。


Python内部的字符串一般都是 Unicode编码, 在Python 里面,处理Unicode字符串和ASCII字符串没什么两样。
decode 的作用是将其他编码的字符串转换成 Unicode 编码
encode 的作用是将Unicode编码转换成其他编码的字符串

比如说,抓取到一个中文的网页myPage,这个网页是'utf-8'编码的,为了便于在pathon 中处理字符串,首先转换为Unicod编码
myPage=myPage.decode('utf-8')
其实,如果是utf-8编码的文件,不需要decode,因为utf-8编码也可以用一个字节来编码ASCII, 也就是说ASCII 字符 的UTF-8编码和ASCII编码完全相同,decode 对于其他编码的文件很有效。

如果再想把unicode编码的文件写入到一个文件中的时候(writelines),就需要转换成其他编码的字符串
myPage=myPage.encode('utf-8')

很好的介绍编码博客



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值