03Python爬虫---延时以及GET和POST请求

一、超时设置
import urllib.request
# 如果想网站不出现超时异常就可以将timeout设置时间延长
for i in range(1, 100):  # 循环99次

    try:

        file = urllib.request.urlopen("http://yum.iqianyue.com",timeout=1)  # 超时设置为1s

        data = file.read()

        print(len(data))

    except Exception as e:

        print("出现异常-->"+str(e))
二、GET请求
import urllib.request

keywd = 'hello'

url = 'http://www.baidu.com/s?wd='+keywd

req = urllib.request.Request(url)  # 构建一个Request对象

data = urllib.request.urlopen(req).read()  # 打开对应的对象

fhandle = open("/home/zyb/crawler/myweb/part4/4.html", "wb")

fhandle.write(data)

fhandle.close()

注意:需要优化的地方关键词为中文时,则会报错UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 10-11: ordinal not in range(128)

优化
url = 'http://www.baidu.com/s?wd='

key = "有道"

key_code = urllib.request.quote(key)  # 对关键词部分进行编码

url_all = url+key_code

req = urllib.request.Request(url_all)  # 构建一个Request对象

data = urllib.request.urlopen(req).read()  # 打开对应的对象

fhandle = open("/home/zyb/crawler/myweb/part4/5.html", "wb")

fhandle.write(data)

fhandle.close()

注意:
1. 必须为GET请求
2. 以URL为参数构建Request对象
3. 通过urlopen()打开构建的Request对象

三、POST请求

我们以www.iqianyue.com网站为例
爬取思路:
1. 设置好URL地址
2. 构建表单数据,通过urllib.parse.urlencode对数据进行编码处理
3. 创建Request对象,参数包括URL和传递的数据
4. 使用add_header()添加头信息,模拟浏览器爬取
5. 使用urllib.request.urlopen()打开对象Request,完成信息的传递
6. 后续处理

import urllib.parse

url = "http://www.iqianyue.com/mypost/"

postdata = urllib.parse.urlencode({
    'name': "zhouyanbing",
    'pass': "zyb1121"
}).encode('utf-8')  # 将数据使用urlencode编码处理后要使用encode设置为utf-8编码

req = urllib.request.Request(url,postdata)

req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

data = urllib.request.urlopen(req).read()

fhandle = open("/home/zyb/crawler/myweb/part4/6.html", "wb")

fhandle.write(data)

fhandle.close()
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python中常用的爬虫模块包括time模块和urllib模块。 time模块是Python内置的时间处理模块,它提供了各种与时间相关的函数和方法,用于处理时间、延时等相关操作。通过time模块,我们可以获取当前时间、设置延时、格式化时间等。 urllib模块是Python内置的HTTP请求库,它包含了多个模块,其中最常用的是request模块。request模块可以用来模拟发送HTTP请求,通过传入URL和其他参数,我们可以实现模拟请求的过程。另外,urllib模块还包括error模块、parse模块和robotparser模块。error模块用于处理请求异常,parse模块提供了URL处理的各种方法,而robotparser模块用于解析网站的robots.txt文件,用于判断哪些网站可以爬取。 对于Python 3中的urllib库的request模块,它提供了更多的功能和方法,包括发送GET请求、发送POST请求、添加请求头、处理响应等。使用urllib库的request模块可以方便地进行网页抓取和数据获取。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [爬虫基础(三)——python爬虫常用模块](https://blog.csdn.net/weixin_46310648/article/details/119211953)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Python-爬虫(基础概念、常见请求模块(urllib、requests))](https://blog.csdn.net/dodamce/article/details/125966540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值