01 - Python爬虫入门前导知识

目录

1. 爬虫简介
  • 爬虫须知概念
  • 爬虫分类
2. HTTP和HTTPS协议
  • 端口
  • 网络模型
  • HTTP协议简介
  • HTTP请求与响应
3. 网页信息分析

课堂笔记

1. 爬虫简介
1.1 爬虫须知概念
  • ⽹络爬⾍(⼜被称为⽹⻚蜘蛛,⽹络机器⼈)就是模拟客户端发送⽹络请求, 接收请求响应,⼀种按照⼀定的规则,⾃动地抓取互联⽹信息的程序。 只要是浏览器能做的事情,原则上,爬⾍都能够做

  • 为什么需要爬虫

    • 为其他程序提供数据源 如搜索引擎(百度、Google等)、数据分析、大数据等等
  • Python做爬虫有哪些优势

    • PHP : 对多线程、异步支持不太好

    • Java : 代码量大,代码笨重

    • C/C++ : 代码量大,难以编写

    • Python : 支持模块多、代码简介、开发效率高 (scrapy框架)

  • Python如何爬取网页上的数据

    • 网页三大特征:

      • 网页都有自己唯一的URL
      • 网页均由HTML描述其内容
      • 网页都使用HTTP/HTTPS协议传输HTML数据
    • 爬虫设计思路:

      • 确定爬取的URL地址
      • 通过HTTP/HTTPS获取对应的HTML页面
      • 提取页面有用信息
1.2 爬虫分类
  • 通用爬虫,主要将网页内容下载到本地,如 谷歌、百度、雅虎
  • 聚焦爬虫,根据既定主题有选择地抓取特定内容
  • 增量式网络爬虫,对下载的内容采取增量式更新或只爬取更新或改变部分的爬虫
  • 深层网络爬虫,用于爬
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值