网页下载器requests模块初识

最新推荐文章于 2024-06-13 23:55:30 发布

from跬步to千里

最新推荐文章于 2024-06-13 23:55:30 发布

阅读量489

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/u010800536/article/details/52526858

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在爬取搜房网二手房信息时，遇到一个问题，使用urllib2来下载网页时，下载处理的内容是乱码，
查看房天下的网页编码为gb2312:

meta charset=”gb2312”

使用代码如下：

#coding='utf-8'

import urllib2
url="http://esf.xian.fang.com/"
headers={"User-Agent":"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1"}
req = urllib2.Request(url,headers=headers)
response= urllib2.urlopen(req)
html = response.read().decode('gb2312','ignore').encode('utf-8')
print html

打印结果乱码，

这里写图片描述
得到建议可使用requests进行下载，可自动处理编码问题。

#coding=UTF-8
import requests

r=requests.get("http://esf.xian.fang.com/")
print r.text

下载结果为：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

from跬步to千里

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网页下载器requests模块初识

requests模块在下载网页时可自动处理编码问题
复制链接

扫一扫

专栏目录

python requests模块下载

01-08

requests是python的一个HTTP客户端库，跟urllib，urllib2类似，那为什么要用requests而不用urllib2呢？官方文档中是这样说明的：“ python的标准库urllib2提供了大部分需要的HTTP功能，但是API太逆天了，一个简单的功能就需要一大堆代码。”

爬虫之网页下载器urllib和requests

Destiny_shine的博客

02-18

472

网页下载器是将URL对应的网页以html的形式下载到本地存储成一个本地文件或字符串。 1. urllib使用方法：（1）处理 get 请求。不传 data，则为 get 请求 import urllib from urllib.request import urlopen from urllib.parse import urlencode url=‘http://127.0.0.1:1990/...

参与评论您还未登录，请先登录后发表或查看评论

简单的爬虫架构和网页下载器requests

qq_52031408的博客

11-16

862

简单的爬虫架构和网页下载器requests

网页过大，requests如何实现下载

落神的博客

09-22

409

最近爬虫遇到一个问题，被请求的url默认返回4条数据，为了节省请求的次数，修改了其中的参数，从而让它每次请求都可以返回50条数据实际实现的过程中，请求的的次数确实减少了，但是伴随着也出现了一个问题为了排查这个问题，浪费了我很长的时间，以为是程序出现了bug，最后看源码才查出原来是requests默认请求最大返回数据为10M，超过10M数据，数据就会缺失。其实，对于工作中，资源比较充足的公司来说，这个问题是不存在的，但是谁让我公司穷呢！所以为了节省购买IP、服务器等资源，只能从代码层做优化

Python轻量级爬虫教程-网页下载器

Leetp

07-27

2863

python网页下载的三种不同功能和方法

requests模块下载

08-21

https://github.com/kennethreitz/requests/zipball/master 可以自行下载，也可以使用我这里的压缩包，本人在此保证压缩包绝无后门，请各位放心使用

Python3离线安装Requests模块问题

09-18

主要介绍了Python3离线安装Requests模块问题，本文实例代码给大家介绍的非常详细，非常不错，具有一定的参考借鉴价值,需要的朋友可以参考下

Python3使用requests模块实现显示下载进度的方法详解

09-19

主要介绍了Python3使用requests模块实现显示下载进度的方法,结合实例形式分析了Python3中requests模块的配置、使用及显示进度条类的相关定义方法,需要的朋友可以参考下

python中requests模块的使用方法

09-22

主要介绍了python中requests模块的使用方法,实例分析了requests模块的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下

python的requests模块文件.zip

03-22

写Pyhton代码的时候，需要用上requests模块，只好自己来先安装一下requests模块，Pyhton安装都是用pip来安装模块的。现在的高版本Pyhton在安装的时候它已经自动安装好了pip，因此不需要我们自己再安装pip了。 ...

httpwebrequest抓取页面小工具

09-04

使用Httpwebrequest抓取页面数据主要用于post get数据之类的提交参数

Python基础知识进阶之数据爬虫

漫步桔田

06-19

4007

Python基础知识进阶之数据爬虫

Python爬虫之网页下载器网页解析器

Baby_Snow的专栏

06-11

3337

一、网页下载器 -- urllib2的三种网页下载方法 import cookielib import urllib2 url = "http://www.baidu.com" print 'first method' #直接请求response1 = urllib2.urlopen(url) #获取状态码，如果是200表示获取成功 print response1.getcod

python 访问网址下载（浏览器打开另存为对话框）

weixin_34255055的博客

09-14

2628

一.python 函数返回式下载，话不多说上代码　　 def xxx(request): 　　filename='' 　　fp = open(filename,'rb') 　　mydata = fp.read() 　　fp.close() response = HttpResponse(mydata, mimetype='application/octet-...

python requests下载网页_Python requests 获取网页一般的方法

weixin_39981681的博客

12-08

557

主要记录使用 requests 模块获取网页源码的方法class Crawler(object):"""采集类"""def __init__(self, base_url):self._base_url = base_urlself._cookie = Noneself._getCookie()def _getCookie(self):"""获取站点cookie:return:"""try:res...

Python模块

zhiman_zhong的博客

08-28

210

开始建立Python工程，考虑到在不同层次间导入自定义函数的问题，顾参照别人博客将Python模块总结整理如下： 1.模块的概念为了编写可维护的代码，我们把很多函数分组，分别放到不同的文件里，这样，每个文件包含的代码就相对较少，很多编程语言都采用这种组织代码的方式。在Python中，一个.py文件就称之为一个模块（Module）。举个例子，一个abc...

基于JavaScript 如何实现爬山算法以及优化方案

乐闻世界

06-10

1448

爬山算法（Hill Climbing Algorithm）是一种常见的启发式搜索算法，常用于解决优化问题。其核心思想是从一个初始状态出发，通过逐步选择使目标函数值增大的邻近状态来寻找最优解。接下来，我们将通过 JavaScript 实现一个简单的爬山算法，帮助大家理解其原理和应用。从一个初始状态开始。评估当前状态的目标函数值。在当前状态的邻居中选择一个目标函数值更大的状态。如果找到了更优的邻居，则移动到该邻居并重复步骤2和步骤3。如果没有更优的邻居，则算法结束，当前状态即为局部最优解。

GLM+vLLM 部署调用

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交