爬虫简介

最新推荐文章于 2021-07-03 22:41:08 发布

小小练习生

最新推荐文章于 2021-07-03 22:41:08 发布

阅读量237

点赞数 1

分类专栏： Python爬虫文章标签： python 网络

本文链接：https://blog.csdn.net/qq_42149144/article/details/105836465

版权

Python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1. 通讯协议
1.1 端口
1.2通讯协议

2. 网络模型
2.1 HTTPS
2.2 SSL

3. 爬虫介绍
3.1 什么是爬虫？
3.2 为什么需要爬虫？
3.3 企业获取数据的方式?
3.4 Python 做爬虫的优势
3.5 爬虫的分类

4. 几个概念
4.1 GET和POST
4.2 URL的组成
4.3 User-Agent 用户代理
4.4 Referer
4.5 状态码

5. 抓包工具

1. 通讯协议

1.1 端口

我们想要进行数据通讯分几步？

第一步：找到对方IP
第二步：数据要发送到对方指定的应用程序上。为了标识这些应用程序,所以给这些网络应用程序都用数字进行了标识。为了方便称呼这个数字,叫做端口。这里的端口，我们一般都叫做 逻辑端口
第三步：定义通讯规则。这个通讯规则我们一般称之为协议

1.2通讯协议

国际组织定义了通用的通信协议：TCP/IP协议
所谓协议就是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则
HTTP又叫做超文本传输协议（是一种通信协议）
HTTP 它的端口是 80

2. 网络模型

网络模型是数据库模型设想为代表对象及其关系的一种灵活的方式。其独特之处在于，作为对象类型为节点和关系类型为弧的图形来看，不限于层次结构。
OSI 七层参考模型

在这里插入图片描述

后期更新了新的参考模型 TCP/IP参考模型

2.1 HTTPS

https=http+ssl，顾名思义，https是在http的基础上加上了SSL保护壳，信息的加密过程就是在SSL中完成
https，是以安全为目标的HTTP通道，简单讲是HTTP的安全版。
即HTTP下加入SSL层，HTTPS的安全基础是SSL

2.2 SSL

SSL也是一个协议主要用于web的安全传输协议

3. 爬虫介绍

3.1 什么是爬虫？

简单一句话就是代替人去模拟浏览器进行网页操作

3.2 为什么需要爬虫？

为其他程序提供数据源如搜索引擎(百度、Google等)、数据分析、大数据等等

3.3 企业获取数据的方式?

1.公司自有的数据
2.第三方平台购买的数据 (百度指数、数据堂)
3.爬虫爬取的数据

3.4 Python 做爬虫的优势

编程语言	特点
PHP	对多线程、异步支持不太好
Java	代码量大，代码笨重
C/C++	代码量大，难以编写
Python	支持模块多、代码简介、开发效率高 (scrapy框架)

3.5 爬虫的分类

通用网络爬虫例如 baidu google yahu
聚焦网络爬虫: 根据既定的目标有选择的抓取某一特定主题内容
增量式网络爬虫: 指对下载网页采取增量式的更新和只爬行新产生的或者已经发生变化的网页爬虫
深层网络爬虫: 指那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的web页面例如用户登录注册才能访问的页面

4. 几个概念

4.1 GET和POST

GET : 查询参数都会在URL上显示出来
POST : 查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来

4.2 URL的组成

URL: 统一资源定位符

https://new.qq.com/omn/TWF20200/TWF2020032502924000.html

https: 协议
new.qq.com: 主机名可以将主机理解为一台名叫news.qq.com 的机器。这台主机在 qq.com 域名下
port 端口号: 80 /new.qq.com 在他的后面有个 :80 可以省略
TWF20200/TWF2020032502924000.html 访问资源的路径
#anchor: 锚点用前端在做页面定位的

注意 : 在浏览器请求一个url,浏览器会对这个url进行一个编码。(除英文字母、数字和部分标识其他的全部使用% 加十六进制码进行编码)
• 例如 : https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
• %E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王

4.3 User-Agent 用户代理

User Agent中文名为用户代理，简称 UA，
它是一个特殊字符串头，使得服务器能够识别客户使用的
- 操作系统及版本
- CPU 类型
- 浏览器及版本
- 浏览器渲染引擎
- 浏览器语言
- 浏览器插件等。
User_Agent:
- Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36
- Mozilla Firefox：(Gecko内核)