python编码转换在线_Python 编码转换与中文处理

Python 编码转换与中文处理

python 中的 unicode是让人很困惑、比较难以理解的问题. utf-8是unicode的一种实现方式,unicode、gbk、gb2312是编码字符集.

decode是将普通字符串按照参数中的编码格式进行解析,然后生成对应的unicode对象

写python时遇到的中文编码问题:➜ /test sudo vim test.py

#!/usr/bin/python

#-*- coding:utf-8 -*-

def weather():

import time

import re

import urllib2

import itchat

#模拟浏览器

hearders = "User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"

url = "https://tianqi.moji.com/weather/china/guangdong/shantou" ##要爬去天气预报的网址

par = '()' ##正则匹配,匹配出网页内要的内容

##创建opener对象并设置为全局对象

opener = urllib2.build_opener()

opener.addheaders = [hearders]

urllib2.install_opener(opener)

##获取网页

html = urllib2.urlopen(url).read().decode("utf-8")

##提取需要爬取的内容

data = re.search(par,html).group(2)

print type(data)

data.encode('gb2312')

b = '天气预报'

print type(b)

c = b + '\n' + data

print c

weather()

➜ /test sudo python test.py

Traceback (most recent call last):

File "test.py", line 30, in

weather()

File "test.py", line 28, in weather

c = b + '\n' + data

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

解决方法:➜ /test sudo vim test.py

#!/usr/bin/python

#-*- coding:utf-8 -*-

import sys

reload(sys)

# Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入

sys.setdefaultencoding('utf-8')

def weather():

import time

import re

import urllib2

import itchat

#模拟浏览器

hearders = "User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"

url = "https://tianqi.moji.com/weather/china/guangdong/shantou" ##要爬去天气预报的网址

par = '()' ##正则匹配,匹配出网页内要的内容

##创建opener对象并设置为全局对象

opener = urllib2.build_opener()

opener.addheaders = [hearders]

urllib2.install_opener(opener)

##获取网页

html = urllib2.urlopen(url).read().decode("utf-8")

##提取需要爬取的内容

data = re.search(par,html).group(2)

print type(data)

data.encode('gb2312')

b = '天气预报'

print type(b)

c = b + '\n' + data

print c

weather()

测试后:➜ /test sudo python test.py

天气预报

汕头市今天实况:20度 多云,湿度:57%,东风:2级。白天:20度,多云。 夜间:晴,13度,天气偏凉了,墨迹天气建议您穿上厚些的外套或是保暖的羊毛衫,年老体弱者可以选择保暖的摇粒绒外套。

个人感觉网上说中文乱码通用解决办法都是错误的,因为类型不一样解决方法也不一样,所以最近刚好出现了这种问题,从网上找了很多办法没解决到,最后自己去查看资料,才发现需要对症下药。

这是一个抓取网页代码的python脚本➜ /test sudo cat file.py

#!/usr/bin/python

#_*_ coding:UTF-8 _*_

import urllib,urllib2

import re

url = 'http://sports.sohu.com/nba.shtml' #抓取的url

par = '20180125.*\">(.*?)'

req = urllib2.Request(url)

response = urllib2.urlopen(req).read()

#response = unicode(response,'GBK').encode('UTF-8')

print type(response)

print response

遇到的问题:

使用中文抓取中文网页时,print出来的中文会出现乱码➜ /test sudo python file.py

special.wait({

itemspaceid : 99999,

form:"bigView",

adsrc : 200,

order : 1,

max_turn : 1,

spec :{

onBeforeRender: function(){

},

onAfterRender: function(){

},

isCloseBtn:true//�Ƿ��йرհ�ť

}

});

解决方法:

AAffA0nNPuCLAAAAAElFTkSuQmCC

查看网页源代码发现charset=GBK的类型所以python中要进行类型转换

➜ /test sudo cat file.py

#!/usr/bin/python

#_*_ coding:UTF-8 _*_

import urllib,urllib2

import re

url = 'http://sports.sohu.com/nba.shtml' #抓取的url

par = '20180125.*\">(.*?)'

req = urllib2.Request(url)

response = urllib2.urlopen(req).read()

response = unicode(response,'GBK').encode('UTF-8')

print type(response)

print response➜ /test sudo python file.py

special.wait({

itemspaceid : 99999,

form:"bigView",

adsrc : 200,

order : 1,

max_turn : 1,

spec :{

onBeforeRender: function(){

},

onAfterRender: function(){

},

isCloseBtn:true//是否有关闭按钮

}

});

现在已经把中文乱码解决了

import json

#打印字典

dict = {'name': '张三'}

print json.dumps(dict, encoding="UTF-8", ensure_ascii=False)>>>{'name': '张三'}

#打印列表

list = [{'name': '张三'}]

print json.dumps(list, encoding="UTF-8", ensure_ascii=False)>>>[{'name': '张三'}]

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值