爬虫基本认知
-
什么是爬虫
爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。
比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。
-
通用爬虫和聚焦爬虫
-
通用
baidu google bing -
聚焦
-
-
首先请问:都说现在是"大数据时代",那数据从何而来?
-
企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
-
数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所
-
政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
-
数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询
-
爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。拉勾网Python爬虫职位
-
-
浏览网页的过程
在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://