python进阶,爬虫简介

17 篇文章 0 订阅
1 篇文章 0 订阅

1.通讯协议

1.1端口

数据通讯分为那几步?

  1. 找到对⽅ip
  2. 数据要发送到指定应用程序上。为了标识这些程序,给网络
    应用程序用数字进行标识。这个数字就叫端口。一般叫“逻辑端口”
  3. 定义通讯规则,一般称为协议。

1.2通讯协议

  • 国际组织定义了通用的协议 TCP/IP协议
  • 所谓协议就是两台计算机之间进行通信必须遵守的规定或规则
  • HTTP(HyperText Transfer Protocol) 叫做超文本传输协议 是⼀种发布 和接收 HTML⻚⾯的⽅法。HTTP 它的端口是 80

2.网络模型

网络模型1后期更新TCP/IP模型
网络模型2

2.1 HTTPS是什么呢?

  • https=http+ssl,https是在http的基础上加上了SSL保护壳,信 息的加密过程就是在SSL中完成的 https。
  • 是以安全为⽬标的HTTP通道,简单讲是HTTP的安全版。
  • 即HTTP下 加⼊SSL层,HTTPS的安全基础是SSL

2.2 怎么理解SSL?

  • SSL也是⼀个协议主要⽤于web的安全传输协议
    SSL

3.爬虫介绍

3.1什么是爬虫?

  • 简单⼀句话就是 代替⼈去模拟浏览器进⾏⽹⻚操作

3.2 为什么需要爬虫?

为其他程序提供数据源

  • 如搜索引擎(百度、Google等)、
  • 数据分析(抖音喜好推荐)、⼤数据
  • AI人工智能 无人驾驶 人脸识别 智能家居 智能语音…

3.3企业获取数据的⽅式?

  • 1.公司⾃有的数据
  • 2.第三⽅平台购买的数据 (百度指数、数据堂)
  • 3.爬⾍爬取的数据

3.4 Python 做爬⾍的优势

  • PHP : 对多线程、异步⽀持不太好
  • Java : 代码量⼤,代码笨重
  • C/C++ : 代码量⼤,难以编写
  • Python : ⽀持模块多、代码简介、开发效率⾼ (scrapy框架)

3.5爬虫分类

  • 通用爬虫
  • 通⽤⽹络爬⾍
    • 例如 baidu google yahu
  • 聚焦⽹络爬⾍: 根据既定的⽬标有选择的抓取某⼀特定主题内容
  • 增量式⽹络爬⾍: 指对下载⽹⻚采取增量式的更新和只爬⾏新产⽣的或者已经 发⽣变化的⽹⻚爬⾍
  • 深层⽹络爬⾍: 指那些⼤部分内容不能通过静态链接获取的、隐藏在搜索表单 后的,只有⽤户提交⼀些关键词才能获得的web⻚⾯
    • 例如 ⽤户登录注册才能 访问的⻚⾯
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九坪村小马

你的鼓励是我创作的最佳动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值