Python环境配置

Python环境配置

Python环境配置

  1. Python主页地址:https://www.python.org/downloads/
    安装时可以选择添加到环境变量,否则需要手动添加。
    手动添加:C:\Python27\;C:\Python27\Scripts\;到环境变量的path变量里;

  2. 安装chardet模块
    chardet是python的第三方库,用来进行编码识别。主页地址为:https://pypi.python.org/pypi/chardet
    可以使用pip命令直接安装:pip install chardet

  3. Python中文字符处理

    • decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312’),表示将gb2312编码的字符串str1转换成unicode编码。
    • encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘gb2312’),表示将unicode编码的字符串str2转换成gb2312编码。

    转码的时候一定要先搞明白,字符串str是什么编码,先decode成unicode,然后再encode成其他编码。
    如果字符串是这样定义:s=u’中文’,则该字符串的编码就被指定为unicode了,即python的内部编码,而与代码文件本身的编码无关,此时只需要直接使用encode方法将其转换成指定编码即可。
    如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断:
    isinstance(s, unicode) #用来判断是否为unicode

    处理Json文件时,如果里边包含中文,虽然已经是utf-8格式,但打印的时候会发现还是显示“\u4e2d\u56fd”。解决办法:

    json_obj = json.loads(line)
    newjson = json.dumps(json_obj, ensure_ascii=False)

如果觉得Python处理中文字符比较麻烦,直接使用3.×以上的版本是一个不错的选择,但需要注意的是在读取文件时,如果文件有中文而又没有指定编码格式,会自动使用gbk解码,如果文本是utf-8可能会出错,最好直接给定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值