爬虫学习小白笔记

一、小试牛刀

# 用程序模拟浏览器,输入一个网址,从该网址获取资源
from urllib.request import urlopen

url= "http://www.baidu.com"
resp=urlopen(url)
print(resp.read().decode("utf-8"))         # 读取url并解码
with open("mybaidu.html",mode="w",encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))  # 写入读取的网页源代码,生成html文件
print("over")

二、web请求过程剖析

  1. 服务器渲染:在服务器那边直接把数据和html整合在一起,统一返回给浏览器。
    特点:在页面源代码中能看到数据
  2. 客户端渲染:
    第一次请求只返回一个html框架,第二次请求获取数据,进行数据展示
    特点:在页面源代码中,看不到数据
  3. 注:要熟练使用浏览器抓包工具(F12)

三、Http协议(超文本传输协议)

协议:为了沟通订制的规则,比如上下位机,不同的电脑端
Http协议把一条消息分为三大块(请求-3块,响应-3块)
请求:
请求行 -> 请求方式(get/post)请求url地址协议
请求头 -> 放一些服务器要使用的附加信息
请求体 -> 一般放一些请求参数
响应:
状态行 -> 协议 状态码
响应头 -> 放一些客户端要使用的一些附加信息
响应体 -> 服务器返回的真正客户端要用的内容(json\html)等
请求头中最常见的一些重要内容(爬虫需要):
User-Agent:请求载体的身份标识(用啥发送的请求)
Referer:防盗链(这个请求从哪里来的)
cookie:本地字符串数据信息(用户登录信息、反爬的token)
响应头中一些重要内容:
cookie:本地字符串信息(用户登录信息、反爬的token)
各种神奇的字符串
请求方式:
GET:显式提交
POST:隐式提交

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值