Python爬虫前奏

网络爬虫

  • 定义 通过模拟人请求网站的行为,然后能够自动请求网页并将数据抓取下来,再使用一定规则将其中我们所需要的有价值的数据提取出来存储,以便我们进行分析;

  • 分类

    • 通用爬虫 搜索引擎抓取系统的一个重要组成部分,主要将网页抓取下来,形成一个互联网的内容备份镜像;
    • 聚焦爬虫 面向特定需求的网络爬虫,与通用爬虫的区别在于它能够在对网页抓取的同时对有价值的内容进行筛选,以满足我们对数据的需求;

http&https

  • http HyperText Transfer Protocol,超文本传输协议,一种发布和接收HTML页面的方法,默认端口80;
  • https Hypertext Transfer Protocol Secure,http协议的加密版,在http下加入SSL层,默认端口443;

URL

  • 定义 Uniform Resource Locator,统一资源定位符;

  • 组成:scheme://host:port/path/?query-string=xxx#anchor,除开英文字母、数字和部分符号外,其他都是%+16进制码进行编码;

    • scheme:访问协议,常为http、https及ftp;
    • host:主机/域名;
    • port:端口号;
    • path:查找路径;
    • query-string:查询字符串;
    • anchor:锚点,用于前端的页面定位;

常见请求方式

  • get 只需要从服务器获取数据,而不会对服务器资源产生影响时所使用的方式;
  • post 向服务器发送数据如登陆操作、上传文件等,会对服务器资源产生影响时所采用的方式;

常见请求头参数

  • Cookie 由之前服务器通过Set-Cookies设置的一个HTTP协议;
  • Referer 表示浏览器之前访问的页面,可以认为是之前访问页面的链接将浏览器带到当前页面;
  • User-Agent 浏览器的身份表示字符串;

响应状态码

总结

本文总结了学习Python爬虫所需要的一些基础知识,通过学习,你将对爬虫的定义以及一些网络知识有所了解,为接下来进一步学习Python爬虫做好准备;

转载于:https://my.oschina.net/cunyu1943/blog/2874295

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值