2020-09-29

笔记

  • 什么是爬虫

  • 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,

沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;

从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用;

  • 爬虫的价值

  • 这是一个爬虫肆掠横行的年代,且看各种爬虫教学视频,付费课程大行其道,甚至搭着数据挖掘分析和大数据一起,着实很紧俏,

话说这世上本没有爬虫,只是因为有了web,才有了爬虫,是的,目前市面上说的爬虫基本上是围绕web网页的,甚至很多技术栈和框架也是围绕web技术趋势来发展的,但只是其一,目前也有很多围绕app来做的爬虫,当然实现起来也就更难了,这里后面会细细道来,其实在谈数据采集之前,我们应该先思考另外一个问题,为何采集爬取数据,只有回答了这个问题,才能理解为什么爬虫这个行业这么火爆,在严刑峻法之前依然有这么多前仆后继,围绕数据采集有以下使用场景,且有利益输送,在列举之前,不得不说,这是一个大数据的时代,数据就是价值就是金钱

1、搜索引擎公司,不得不说,谷歌百度等搜索引擎公司是最大的爬虫公司,只不过别人找到了目前截止目前信息时代数据最好的变现商业产品而已。
2、舆情分析与数据挖掘,这绝对是爬虫数据被综合利用设计后很好的实现场景之二,比如百度,谷歌,搜狗,微博等排行榜或者舆情分析产品。
3、买数据的公司,或者数据聚合的公司,比如天眼查,企查查,西瓜数据等等。
4、导购,价格监测,运营助手,或者横向数据聚合的公司等,以此为生的产品衍生的小公司就不一一列举了。
5、黑产,灰产,刷量,排行榜,搬砖等,比如前期被判刑的美剧天堂还是什么公司就是这样的,这样的个人,团伙也是不少的。
6、广告公司,比如新榜,清博数据等围绕微信,微博等社交媒体的公司。
总之以此爬虫拿公开或者非公开的数据价值来为自己赚钱即是人性,所以你很难说把这个行业给消灭掉,话说还有很多公司是希望自己的产品被人爬呢?只要在法律的准绳之内,遵循robots协议。

继续来说爬虫和大数据的关系吧,真的有很好的数据覆盖面的公司毕竟不多,讲到了数据,一般企业的数据无非有以下几个来源:

1、数据库(这里的数据库是泛指,有可能是文件,关系型数据库或列存储数据)里数据,包括自己的业务数据,价值密度应该最高的。
2、埋点数据,当前以友盟,百度,talkingdata等为首的web或者app埋点数据厂商,当然也可以自己开发埋点数据工具来收集数据。
3、日志数据,包括系统,应用,网络等数据,价值密度相对较小,这里也涉及到很多技术,后面公司会单独来聊聊。
4、爬虫或者外部采集数据,对,网络采集数据作为企业内部数据一个很好的补充,也是有相当价值的,这也是为什么很多公司有专门的爬虫公司一职。

  • 爬虫分类
    .

  • 通用爬虫
    1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。通用爬虫要遵循规则:Robots协议
     通用爬虫工作流程:
      爬取网页》存储数据》内容处理》提供检索
     通用爬虫缺点:
      只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序)
      提供的结果千篇一律,针对不同领域提供不同内容
      不能提供人类语义上的检索
     通用爬虫局限性:
      1.通用搜索引擎返回网页的数据内容,大概90%都无用。
      2.中文搜索引擎自然语言检索理解困难。
      3.信息占有量和覆盖率存在局限。
      4.搜索引擎主要是以关键字搜索为主,对于图片、数据库、视频、音频等多媒体的内容用通用搜索引擎无效。
      5.搜索引擎的社区化和个性化不好,未考虑实际因素如人的地域、性别、年龄等差别。
      6.搜索引擎爬取动态网页效果不好

  • .聚焦爬虫
    聚焦爬虫可分为三类:
      
     1.积累式爬虫:从开始到结束,不断爬取,过程会进行重复操作。
     2.增量爬虫:已下载网页采取增量式跟新,爬取更新变化的数据。
     3.深度爬虫:指那些不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获取的web界面

  • 增量爬虫
    通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据
    爬虫的矛与盾

  • 反爬机制
    门户网站,可以要通过制定相应的策略手段,防止爬虫程序进行网站数据的爬取

  • 反反爬策略
    爬虫程序可以通过制定相关的策略或者技术手段 破解门户网站具备的反爬机制 ,从而可以获取门户网站

  • robots.tex协议
    君子协议 规定网站的那些网站数据可以被爬虫爬取哪些数据是不可以被爬取

  • http协议
    -概念:就是服务器和客户端进行数据交互的一种协议
    常见请求信息
    -Uesr-Agent:请求载体的身份的标识
    -connection :请求完毕后 是断开还是链接
    常见相应头信息
    -Content-Type:服务器响应头回客户端数据类型

  • HTTP是协议
    -安全的超文本传输协议
    加密方式
    -对称密钥加密
    -非对称密钥加密
    -证书密钥加密

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值