Python字符编码学习理解

使用Python处理字符时需要注意的几点

最近被python的字符串处理搞昏了头,又跑回去看了看字符编码的区别,现在记下来,以供后面自己查阅:

  • Python默认使用Unicode编码
    • Unicode使用两个字节用来表示一个字符
  • 存储一般采用UTF-8格式存储
    • UTF-8可变长度字符编码,英文数字均为1字节,汉字一般为3字节,更复杂的4~6个字节
  • ASCII可以看作是UTF-8的一个子集

  • 在Linux下,Python解释器会根据编码文件中制定的编码格式读取文件内容,一般指定为UTF-8形式:

    
    #!/usr/bin/python
    
    
    # -*- coding: utf-8 -*-
    
  • Windows下一般采用Unicode编码形式,Python解释器默认以Unicode模式读取字符串

  • 由于Python处理字符串过程为Unicode编码形式,所以,在对文件及网络字符串流处理时,为了避免中文乱码形式,应该合理使用decode()encode()方法进行字符串的编码形式的转换.

  • 在Linux下编写含中文的.py的文件时,应注意编辑器的编码形式,若指定了读取模式为UTF-8,应保证文件的编码形式为UTF-8
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值