本chat主要从以下6个方面来展开
- 爬虫的来由,应用场景,数据价值
- 爬虫技术开发语言和开发框架选型
- 爬虫国内外产品竞品分析
- 爬虫技术应用延伸拓展
- 分布式企业级爬虫实践
首先本chat旨在让大家对爬虫形成,价值,实现,周边等有一个全面的认识,而不是事无巨细的讲解爬虫的各种具体实现,如果大家有这方面的兴趣和具体爬虫问题可以线上和建微信群就交流
1、爬虫的来由,应用场景,价值
这是一个爬虫肆掠横行的年代,且看各种爬虫教学视频,付费课程大行其道,甚至搭着数据挖掘分析和大数据一起,着实很紧俏,话说笔者也是这个行业的一个资深的爬虫老人了,在此也不罗嗦,赶紧把爬虫的各种道道,技术流派和渊源给你梳理讲讲。
话说这世上本没有爬虫,只是因为有了web,才有了爬虫,是的,目前市面上说的爬虫基本上是围绕web网页的,甚至很多技术栈和框架也是围绕web技术趋势来发展的,但只是其一,目前也有很多围绕app来做的爬虫,当然实现起来也就更难了,这里后面会细细道来,其实在谈数据采集之前,我们应该先思考另外一个问题,为何采集爬取数据,只有回答了这个问题,才能理解为什么爬虫这个行业这么火爆,在严刑峻法
之前依然有这么多前仆后继,我是这么理解的,围绕数据采集有以下使用场景,且有利益输送,在列举之前,不得不说,这是一个大数据的时代,数据就是价值就是金钱(你肯定反驳那不一定非得爬呀,只能说你太年轻,有数据的公司太少了,毕竟不是BAT:
- 1、搜索引擎公司,不得不说,谷歌百度等搜索引擎公司是最大的爬虫公司,只不过别人找到了目前截止目前信息时代数据最好的变现商业产品而已。
- 2、舆情分析,这绝对是爬虫数据被综合利用设计后很好的实现场景之二,比如百度,谷歌,搜狗,微博等排行榜或者舆情分析产品。
- 3、买数据的公司,或者数据聚合的公司,比如天眼查,企查查,西瓜数据等等。
- 4、导购,价格监测,运营助手,或者横向数据聚合的公司等,以此为生的产品衍生的小公司就不一一列举了。
- 5、黑产,灰产,刷量,排行榜,搬砖等,比如前期被判刑的美剧天堂还是什么公司就是这样的,这样的个人,团伙也是不少的。
- 6、广告公司,比如新榜,清博数据等围绕微信,微博等社交媒体的公司。
总之以此爬虫拿公开或者非公开的数据价值来为自己赚钱即是人性,所以你很难说把这个行业给消灭掉,话说还有很多公司是希望自己的产品被人爬呢?只要在法律的准绳之内,遵循robots协议,大家还是可以很好的玩耍的。
反正已经啰嗦了这么多,我们还是继续来说爬虫和大数据的关系吧,上面也讲了,真的有很好的数据覆盖面的公司毕竟不多,讲到了数据,以我有限的经验来说,企业的数据无非有以下几个来源:
- 1、数据库(这里的数据库是泛指,有可能是文件,关系型数据库或列存储数据)里数据,包括自己的业务数据,价值密度应该最高的。
- 2、埋点数据,当前以友盟,百度,talkingdata等为首的web或者app埋点数据厂商,当然也可以自己开发埋点数据工具来收集数据。
- 3、日志数据,包括系统,应用,网络等数据,价值密度相对较小,这里也涉及到很多技术,后面公司会单独来聊聊。
- 4、爬虫或者外部采集数据,对,网络采集数据作为企业内部数据一个很好的补充,也是有相当价值的,这也是为什么很多公司有专门的爬虫公司一职。
2、爬虫技术语言和技术框架选型
1、python
a)、谈到爬虫具体的实现框架,我首推python语言家族的scrapy,没有之一,当之无愧的爬虫一哥,作为爬虫框架,他可扩展性,易用性&#