Spider__1__get/post

httpbin.org 

整体思路:

实现:

爬取网页的时候默认的使用get方法,得到一个网页的源码,post方法获取一些network里面的东西。

418 错误:我是一个茶壶,在进行爬取的时候被网页端发现了 ,需要进行模拟 手动点击浏览器访问

即 headers 模拟 浏览器访问时候的一些信息

 

1.get方法 简单模拟 手动点击 浏览器

# -*- codeing = utf-8 -*-
# @Time : 12/02/2020 05:31 PM
# @Author : Gyp
# @File : test2

import urllib.request
import urllib.parse

url = "http://www.douban.com"

headers = {
    # 模拟浏览器访问
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

# 实例化一个类 将用到的条件进行封装
req = urllib.request.Request(url=url , headers=headers )

response = urllib.request.urlopen(req)

print(response.read().decode("utf-8") )

2.post方法 简单模拟 手动点击 浏览器

import urllib.request
import urllib.parse

url = "http://httpbin.org/post"

headers = {
    # 用户代理   访问的 系统 浏览器类型
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
# 模拟 form 表单里面的内容
data = bytes(urllib.parse.urlencode({'name':'eric'}),encoding="utf-8")

req = urllib.request.Request(url=url,data=data,headers=headers,method="POST")

response = urllib.request.urlopen(req)

print(response.read().decode("utf-8") )

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值