3.1爬虫的基本知识点

数据来源
·第三方公司购买
·免费网站下载
·人工收集
·爬虫爬取数据
定义 
模拟浏览器发送网络请求, 接收请求响应, 
一种按照一定规则, 自动抓取网络信息的程序。


爬虫分类
·通用爬虫, ·聚焦爬虫
·流程
·向起始url发送请求, 并获取响应,
·对响应进行提取,
·如果提取url, 则继续发送请求获取响应
·如果提取数据, 则将数据保存
·http: 超文本传输协议
·https:HTTP+SSL 带有安全套接字层的超文本传输协议
·浏览器发送http请求的过程
浏览器先向地址栏中的url发起请求,并获取相应
在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应

从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改

   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值