python urllib爬取网页编码问题

最新推荐文章于 2024-05-02 21:47:38 发布

hfut_jf

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量1.1w

点赞数 5

分类专栏： Q&A

本文链接：https://blog.csdn.net/hfut_jf/article/details/51276110

版权

使用Python urllib库爬取网页时，可能会遇到编码问题。通过调用urlopen()获取网页后，使用info()查看编码类型。若出现编码错误，可能是因为网页数据为压缩格式，如gzip。为了解压，可以参考Stack Overflow上的解决方案来正确处理压缩的网页数据。

摘要由CSDN通过智能技术生成

利用python urllib库爬取网页，有时获得的网页打印或写文件遇到编码问题，找了许久终于知道为什么了。

首先利用urlopen()函数获取网页对象，再利用info()函数打印网页的相关信息，确定网页的编码及是否压缩。

import urllib.request

fp = urllib.request.urlopen('http://www.sina.com')
mybytes = fp.read()
text = mybytes.decode('utf8')
print(text)

报错

显示编码错误，刚开始，傻傻地试各种编码，utf-8，gbk，gb2312，都不行，心里堵得慌，是在玩我吗？

so，开始怀疑是bug，但是有的网页又不会出错，这就奇怪了，最后google找到了一个解释，说是返回的网页数据是压缩格式，恍然大悟，先打印网页信息，看一眼

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hfut_jf

关注关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫——使用urllib爬取网页

w_sunset的博客

11-26

6372

1.urlib库是python内置的http请求库，它可以看作处理url的组件集合。urllib库包含4大模块：（1）urllib.request:请求模块（2）urllib.error: 异常处理模块（3）urllib.parse:URL解析模块（4）urllib.robotparser:robots.txt解析模块下面是用urllib库爬取百度首页 import urllib.request # 导入urllib的请求模块request url = "http://www

使用python获取网页编码格式

framic的博客

11-26

2510

需要引用chardet 模块测试用例： import urllib.request import chardet user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7' url = "http://blog.csd

3 条评论您还未登录，请先登录后发表或查看评论

Python爬虫学习笔记（三）————urllib

laosao_66的博客

07-16

3245

模拟浏览器向服务器发送请求response服务器返回的数据response的数据类型是字节‐‐>字符串解码decode字符串‐‐>字节编码encoderead()read(5)返回前五个字节readline()读取一行一行一行读取直至结束getcode()获取状态码，是200的话表示状态正常，还可能为404等等geturl()获取访问的url地址获取headers状态信息，响应头请求网页请求图片请求视频运行框中通过Ctrl+f来进行搜索内容。

python urlib 爬虫_Python：爬虫之怎样通过 urllib 获取网页内容

weixin_35696071的博客

01-28

470

urllib.request 是一个用于获取 URL 内容的模块。适用于在各种复杂情况下请求 URL 的函数和类，包括认证、重定向、header和cookies等操作。urllib.request 支持包括 ftp、https 和 file 等各种 URL 协议。函数定义主要的 urlopen 函数有一个必填参数 url，其他为可选参数。urllib.request.urlopen(url, da...

python urllib2.urlopen()获取到html内容乱码解决

auspark的专栏

04-15

1469

1、问题：在用urllib2.urlopen()打开的网页显示乱码，查看原网页其用的charset='gb2312' 所以见获取到的网页用decode('gb2312')解码，但是发现偶尔能行，大部分时候不行，非常奇怪，不行的时候报错： UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 11346-11...

python requests获取网页内容(urllib.request和requests的使用和区别)

xf-阿飞大大

08-17

9233

urllib.request和requests的使用和区别请求网页内容可用urllib.request和requests函数,下面分别描述两种函数使用方法 urllib.request的使用 1.发起基础请求 import urllib.request req = urllib.request.Request(url) response = urllib.request.urlopen(req) print(response) 返回结果如下: 返回的是一个object对象,如果想去获取内容还需进一步解

python urllib爬取百度云连接的实例代码

09-21

### Python urllib 爬取百度云链接实例解析在当今数据驱动的世界中，网络爬虫技术变得越来越重要，它能够帮助我们从互联网上自动收集大量数据。本篇内容将详细介绍如何利用Python中的`urllib`库来爬取百度云链接的...

Python爬虫——简单网页抓取（实战案例）小白篇_python爬虫爬取网页数据

热门推荐

谷震平的专栏

11-18

8万+

1 下载与安装见其他教程。 2 Requsts简介 Requests is an Apache2 Licensed HTTP library, written inPython, for human beings. Python’s standard urllib2 module provides most ofthe HTTP capabilities you need,...

Python爬虫入门：urllib.request.Request详解

菜鸟也要高飞

07-21

4万+

Python爬虫入门：urllib.request.Request详解Request简介基本用法参数解析用法 Request简介 urlopen()方法可以实现最基本的请求的发起，但如果要加入Headers等信息，就可以利用Request类来构造请求。使用方法为：urllib.request.Request(url, data=None, headers={}, origin_req_host=...

Python网络数据采集（1）——获取网页源码

穹顶之下

01-08

1876

from bs4 import BeautifulSoup from urllib.request import urlopen html = urlopen("http://www.baidu.com/") text = BeautifulSoup(html.read(), "html.parser") print(text) 《Python网络数据采集》原书上第四段代码写的是Beauti

Pycharm内置urllib.request模块使用方法加爬取贴吧任意输入内容的网页源码实例；

idgrown的博客

04-30

1440

一、## Request中的方法 #1.urllib.request.urlopen(urls) 请求的网页地址，返回的是网页响应对象； #2.read() 将相应返回的对象中内容取出来；并解码成字符串（读出来的是字节）此处注意的是：urlopen()中不支持重构USER-AGENT；所以我们可以使用 urllib.request.request(urls,header) 如下： #1添加us...

python3 使用urllib.request模块，关于bytes和string的那些事

两步一脚印的专栏

03-26

7551

python 3.4.2 使用urllib.request模块获取网页内容，虽说知道要注意编解码的问题，但有些细节还是不清楚，终于碰到了TypeError的错误：TypeError:can't use a string pattern on a bytes-like object知道是字节和字符使用错误，但是问题在哪儿呢？只好敲代码问问了。import urllib.requesturl = 'ht

06 requests模块发送请求和获取网页字符串

一越王超的博客

08-23

373

问题：为什么要学习requests，而不是urllib? requests的底层实现就是urlib requests在python2和python3中通用，方法完全一样 requests简单易用 requests能够自动帮我们解压（gzip）网页内容

python urllib2爬取网页，编码问题

learn_tech的博客

10-31

3234

使用urllib2爬取网页时，由于网页编码和系统的编码不统一，回导致乱码问题。一般linux系统都使用utf-8编码，将爬取的网页内容转换成utf-8编码，统一编码类型。 1）检测网页编码类型 2）编码转换 import urllib2 import chardet if __name__=="__main__": url = "http://news.163.com/16/

Python获取网页编码的两种方法——requests、chardet

吴芒果的博客

12-12

9560

方法一：使用requests模块In[2]: import requests In[3]: res = requests.get('http://baidu.com') In[4]: res Out[4]: <Response [200]> In[5]: res.encoding Out[5]: 'ISO-8859-1'方法二：使用chardet模块import chardet from urlli

使用Urllib爬取网页的Python程序

02-17

以下是使用Python中的Urllib库进行网页爬取的示例程序： ```python import urllib.request # 指定要抓取的页面url url = "https://www.example.com/" # 打开url链接并读取页面内容 response = urllib.request.urlopen(url) html = response.read() # 输出页面内容 print(html) ``` 上述代码通过urllib.request.urlopen()函数打开指定的url链接，并读取页面内容。页面内容保存在变量`html`中，最后将其输出。如果需要传递参数或设置header，可以使用`urllib.request.Request`方法，如下所示： ```python import urllib.request import urllib.parse # 设置请求参数 data = urllib.parse.urlencode({'param1': 'value1', 'param2': 'value2'}) # 设置请求header headers = {'User-Agent': 'Mozilla/5.0'} # 构建请求对象 req = urllib.request.Request(url, data.encode(), headers) # 打开url链接并读取页面内容 response = urllib.request.urlopen(req) html = response.read() # 输出页面内容 print(html) ``` 在上面的示例中，使用`urllib.parse.urlencode()`将参数转换为url编码格式，并将其作为data参数传递给`urllib.request.Request`方法。同时，将headers作为字典传递给构建的请求对象。最后，使用打开url链接的方法读取页面内容，并将其输出。