str字符和unicode字符的区别

实际情况是,beautifulsoup处理后的网页,的确是utf-8的。而utf-8和unicode,本身就不相等。

首先,字符串分两种,一种是str字符,一种是unicode字符。str字符,就是普通字符,某种编码的字符,包括ANSI,GBK,UTF-8等,而Unicode就是原始的unicode,未经过encode编码的unicode,而进过某种编码,比如utf-8,gbk等编码后的unicode,就是对应str类型了。


Python中,不论是Python 2.x还是Python 3.x中,总体上说,字符都只有2大类:

一类是通用的Unicode字符,原始字符;

另一类是,(unicode被编码后的),某种编码类型的字符,比如UTF-8,GBK等等类型的字符;






其中,需要注意对应的Python文件所使用的编码,需要和其声明的编码(UTF-8)一致。

换句话说,你要把代码保存到UTF-8编码的Python文件中。

1、文件编辑器设定的编码 ==文件申明编码;

2、str原始字符要转码成指定unicode编码;

3、采集后的信息编码(如html文件编码为gb2312)要和1文件编码(如utf-8)一致

4、程序文件编码要和本地电脑的编码一致,如gbk


转摘和更详细:

https://www.crifan.com/summary_python_string_encoding_decoding_difference_and_comparation_python_2_x_str_unicode_vs_python_3_x_bytes_str/


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值