Spider1get/post

最新推荐文章于 2023-02-09 16:25:07 发布

苏格拉没底——

最新推荐文章于 2023-02-09 16:25:07 发布

阅读量127

点赞数

分类专栏： Python/爬虫/可视化/数分

本文链接：https://blog.csdn.net/qq_924485343/article/details/110492392

版权

Python/爬虫/可视化/数分专栏收录该内容

37 篇文章 0 订阅

订阅专栏

httpbin.org

整体思路：

实现：

爬取网页的时候默认的使用get方法，得到一个网页的源码，post方法获取一些network里面的东西。

418 错误：我是一个茶壶，在进行爬取的时候被网页端发现了，需要进行模拟手动点击浏览器访问

即 headers 模拟浏览器访问时候的一些信息

1.get方法简单模拟手动点击浏览器

# -*- codeing = utf-8 -*-
# @Time : 12/02/2020 05:31 PM
# @Author : Gyp
# @File : test2

import urllib.request
import urllib.parse

url = "http://www.douban.com"

headers = {
    # 模拟浏览器访问
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}

# 实例化一个类 将用到的条件进行封装
req = urllib.request.Request(url=url , headers=headers )

response = urllib.request.urlopen(req)

print(response.read().decode("utf-8") )

2.post方法简单模拟手动点击浏览器

import urllib.request
import urllib.parse

url = "http://httpbin.org/post"

headers = {
    # 用户代理   访问的 系统 浏览器类型
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
# 模拟 form 表单里面的内容
data = bytes(urllib.parse.urlencode({'name':'eric'}),encoding="utf-8")

req = urllib.request.Request(url=url,data=data,headers=headers,method="POST")

response = urllib.request.urlopen(req)

print(response.read().decode("utf-8") )

苏格拉没底——

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spider__1__get/post

httpbin.org整体思路：# -*- codeing = utf-8 -*-# @Time : 11/30/2020 07:47 PM# @Author : Gyp# @File : spiderfrom bs4 import BeautifulSoupimport reimport urllib.request,urllib.errorimport sqlite3import xlwtdef main(): # 1 爬取网页 # 2 解析数据..
复制链接

扫一扫