python爬虫网络请求与request库的使用

原创已于 2025-07-22 10:52:29 修改 · 306 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python爬虫

于 2019-09-16 20:05:30 首次发布

python 同时被 2 个专栏收录

18 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

本文介绍了网络爬虫的基本概念，包括爬虫的定义、分类如通用爬虫和聚焦爬虫，以及网络通信中使用的库如urllib和requests。探讨了接口分析、请求头的作用、HTTP请求的无状态性及解决方法如cookies和session机制。

一.什么是爬虫？
网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
二.爬虫的分类
1.通用爬虫
随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。
聚焦爬虫
(1) 对抓取目标的描述或定义；
(2) 对网页或数据的分析与过滤；
(3) 对URL的搜索策略。
三.网络通信
urllib\requsets
1.requests库的使用
(1)导入库：import requests
(2)发起网络请求：
GET：
POST：
网络请求状态码分别表示的含义：
在这里插入图片描述
四.接口分析
1.参数的分析
url中国参数是用问号界定的,所以问号以后都是参数,多个参数要用’‘&’'。
如果参数要是很多要先过滤参数

2.要淘汰哪些参数
技巧：分清哪些参数是变化的，哪些参数是不变的
方法：url对比
在这里插入图片描述
五.请求头的含义
请求头headers
告诉服务器，我是谁，我想要什么数据？

服务器发现是否是爬虫的一个最直接的方式是判断是否有请求头出现。
六.HTTP请求的无状态性
为了解决这种无状态性，引入cookies和session机制
cookies的大小：<4K
cookies在客户端
session在服务端
session是有时效的一般在14天,可以手动更改时效