爬虫基本认知

最新推荐文章于 2021-08-22 20:31:12 发布

ls_ange

最新推荐文章于 2021-08-22 20:31:12 发布

阅读量428

点赞数

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/ls_ange/article/details/83474168

版权

什么是爬虫

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。

比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。
通用爬虫和聚焦爬虫
1. 通用
  baidu google bing
2. 聚焦
首先请问：都说现在是"大数据时代"，那数据从何而来？
- 企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数
- 数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所
- 政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。
- 数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询
- 爬取网络数据：如果需要的数据市场上没有，或者不愿意购买，那么可以选择招/做一名爬虫工程师，自己动手丰衣足食。拉勾网Python爬虫职位
浏览网页的过程

在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://

关注

专栏目录