python urllib爬虫_python+urllib爬虫

导入包

import urllib.request

import urllib.parse

获取get请求

response = urllib.request.urlopen("http://httpbin.org/get")

print(response.read().decode('utf-8'))

b58b70efdcce93b727b4ae97bd37ced3.png

get超时(预备方案,问题最后解决使程序正常运行)

try:

response = urllib.request.urlopen("http://httpbin.org/get", timeout=0.01)

print(response.read().decode('utf-8'))

except urllib.error.URLError as e:

print("time out")

9ef40f30e9e93ec294e0f18b58d412cd.png

获取post请求

data = bytes(urllib.parse.urlencode({"hello":"world"}), encoding="utf-8")

response = urllib.request.urlopen("http://httpbin.org/post", data=data)

print(response.read().decode('utf-8'))

0132d4d8b00ffba5dda067cf32409a4f.png

post伪装浏览器,解决418

1、User-Agent获取

随便打开一个网站(百度为例),点F12(或者鼠标右键点击检查),在点击Networka1d4b9a7ed1f6ab2d93b64ba6a3ad885.png

重新刷新网页(或者点击F5),点击iconfont-9f2f4dde78.woff2426c243a94ea925bd8d6e0e2c1451393.png

复制User-Agent

96e673b95a920f81e48c015fa8d7b50e.png

2、代码

url = "http://httpbin.org/post"

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"

}

data = bytes(urllib.parse.urlencode({'name':'lucy'}), encoding="utf-8")

req = urllib.request.Request(url=url,data=data,headers=headers,method="POST")

response = urllib.request.urlopen(req)

print(response.read().decode('utf-8'))

c5d00d174a29423de517b249a432ff91.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值