python|爬虫基本概念介绍

爬虫介绍

通讯协议

1.端口 逻辑端口
2.进行数据通讯分为几?
找到对方ip
将数据发送到对方指定的应用程序上
定义通讯规则
3.通讯协议
TCP/IP协议
HTTP HTTPS

爬虫介绍

  • 什么是爬虫?

代替人去模拟浏览器进行网页操作

  • 为什么需要爬虫?

为其他程序提供数据源

  • 企业获取数据的方式?

企业自有的数据;第三方平台购买的数据;爬虫工程师来爬取数据。

  • python做爬虫的优势?

简洁,速度快,高效,第三方库多

爬虫的分类?

  • 通用网络爬虫:爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。例如 baidu google yahu;
  • 聚焦网络爬虫:根据既定的目标有选择的抓取某⼀特定主题内容;
  • 增量网络爬虫:指对下载网页采取增量式的更新和只爬行新产生的或者已经发生变化的网络爬虫;
  • 深度网络爬虫: 指那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交⼀些关键词才能获得的web页面 例如 用户登录注册才能访问的页面

几个概念

  • get查询的参数都会显示在url上面
  • post查询的参数和提交的数据是隐藏在form表单里面不会在url上面显示
  • url组成部分 全球统一资源定位符 协议 域名/ip地址 隐藏的端口号 访问资源的路径
  • anchor 锚点前端用在网页定位的。如百度百科里面的目录索引,网易云音乐上的分栏
  • 注意 : 在浏览器请求⼀个url,浏览器会对这个url进行⼀个编码。(除英文字母、数字和部分标识其他的全部使用% 加 十六进制码进行编码)
  • User-Agent 用户代理Mozilla FireFox
  • refer表明当前的这个请求是从哪个url过来的
  • 状态码
  • 开发者工具
    Elements 元素 网页源代码 提取数据和分析数据
    Console 控制台 打印信息
    Sources 信息来源 整个网站加载的文件
    NetWork 网络工作 信息抓包 能够看到很多的网页请求

参考资料https://blog.csdn.net/Claire_chen_jia/article/details/105767179?spm=1001.2014.3001.5501

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值