【爬虫记录】编码问题

最新推荐文章于 2024-04-05 21:22:57 发布

Soheyi

最新推荐文章于 2024-04-05 21:22:57 发布

阅读量214

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/Soheyi/article/details/108292724

版权

Python 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

第一个程序

# ecoding=utf-8
import requests

url = 'http://sz.lianjia.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print (res.text)

上面就是一个爬虫最简单的程序，但是返回的结果，所有涉及到中文的内容，全部会变成乱码，比如：

<script type="text/template" id="newAddHouseTpl">
  <div class="newAddHouse">
    è‡ªä»Žæ‚¨ä¸Šæ¬¡æµè§ˆï¼ˆ<%=time%>ï¼‰ä¹‹åŽï¼Œè¯¥æœç´¢æ¡ä»¶ä¸‹æ–°å¢žåŠ äº†<%=count%>å¥—æˆ¿æº
    <a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a>
    <span class="newHouseRightClose">x</span>
  </div>
</script>

问题分析

很典型的编码问题，说白了，编码方式和解码方式不一致，文字编码不正确导致了错误。在python2.7中默认的编码方式是：utf-8 WIN是GBK，python3.6默认的编码方式是：unicode

查看了下输出网页的编码方式：

# ecoding=utf-8
import requests
url = 'http://sz.lianjia.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print (res.encoding)

发现输出的是ISO8859-1.ISO8859-1，通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。其中，ISO8859-1是一个8bit编码格式，不能表示全球字符，unicode可以。 utf-8变长编码（中文3个字节，英文1个字节） unicode固定2个字节。ISO8859是程序里面使用的编码方式和原始网页的编码方式不一致，导致中文字符产生乱码的情况。

问题解决

既然我们已经知道问题出现的原因是什么，那么接下来就是解决问题。

首先我们修改编码方式进行尝试，代码如下：

# ecoding=utf-8
import requests

url = 'http://sz.lianjia.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print (res.text)

结果就显示正确了，中文正确显示。

补充一点：

按照下面的写法也可以正确显示，原因是res.content获得的是unicode的编码格式，res.text是按照推荐的编码方式进行编码后的结果，直接对res.content按照网页的编码方式进行解码，也可以实现正确解码中文字符的目的。

# ecoding=utf-8
import requests

url = 'http://sz.lianjia.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)


print (res.content.decode('utf-8'))

Soheyi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【爬虫记录】编码问题

第一个程序# ecoding=utf-8import requestsurl = 'http://sz.lianjia.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'res = requests.get(url)print (res.text)上面就是一个爬虫最简单的程序，但是返回的结果，所有涉及到中文的内容，全部会变成乱码，比如：<script type="text/template" id="newAddHo
复制链接

扫一扫