爬虫中文乱码繁体字乱码问题解决

工作需要爬取淘宝对应的卖家账户,为了简单就直接用正则匹配所需掌柜名称。  ps:项目较老,用的python2.7

遇到三个问题:

1.中文乱码,开始直接就 Response.encoding = 'utf-8',结果中文都是乱码。查资料可以用  Response.apparent_encoding 看出返回网页的编码格式 GB2312

2.繁体字乱码 简单中文没问题,但是繁体字又是乱码,而且Response.apparent_encoding=‘GB2312’,再查资料,直接在浏览器看网页源码,找到 <meta charset="gbk">,改成gbk问题解决

3.汉字无法正则匹配,因Response.text是unicode格式,需转成python支持的utf-8

 

 

转载于:https://www.cnblogs.com/yeteng/p/10954100.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值