爬虫学习小白笔记

小白学习记录

已于 2022-11-01 19:42:48 修改

阅读量115

点赞数

分类专栏：数据分析代码文章标签：爬虫学习

于 2022-10-27 21:10:23 首次发布

本文链接：https://blog.csdn.net/feverfew1/article/details/126255786

版权

数据分析代码专栏收录该内容

19 篇文章 3 订阅

订阅专栏

爬虫学习小白笔记

一、小试牛刀
二、web请求过程剖析
三、Http协议（超文本传输协议）

一、小试牛刀

# 用程序模拟浏览器，输入一个网址，从该网址获取资源
from urllib.request import urlopen

url= "http://www.baidu.com"
resp=urlopen(url)
print(resp.read().decode("utf-8"))         # 读取url并解码
with open("mybaidu.html",mode="w",encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))  # 写入读取的网页源代码,生成html文件
print("over")

二、web请求过程剖析

服务器渲染：在服务器那边直接把数据和html整合在一起，统一返回给浏览器。
特点：在页面源代码中能看到数据
客户端渲染：
第一次请求只返回一个html框架，第二次请求获取数据，进行数据展示
特点：在页面源代码中，看不到数据
注：要熟练使用浏览器抓包工具（F12）

三、Http协议（超文本传输协议）

协议：为了沟通订制的规则，比如上下位机，不同的电脑端
Http协议把一条消息分为三大块（请求-3块，响应-3块）
请求：
请求行 -> 请求方式（get/post）请求url地址协议
请求头 -> 放一些服务器要使用的附加信息
请求体 -> 一般放一些请求参数
响应：
状态行 -> 协议状态码
响应头 -> 放一些客户端要使用的一些附加信息
响应体 -> 服务器返回的真正客户端要用的内容（json\html)等
请求头中最常见的一些重要内容（爬虫需要）：
User-Agent:请求载体的身份标识（用啥发送的请求）
Referer:防盗链（这个请求从哪里来的）
cookie：本地字符串数据信息（用户登录信息、反爬的token）
响应头中一些重要内容：
cookie：本地字符串信息（用户登录信息、反爬的token）
各种神奇的字符串
请求方式：
GET：显式提交
POST:隐式提交