为什么有爬虫?
- 在网站发展以前,最开始的网站数量很少,访问网站都是通过输入域名访问,比如访问sina.com,这个时候有什么就看什么?
- 随着互联网的发展,网站的数量呈现爆炸式的增长,这个时候随着用户越来越多,需求也就随着变化,由被动浏览变成主动查询?
- 搜索网站产生,随之搜索网站需要解决的第一个问题也就产生,怎么获取所有数据?
- 爬虫也就产生了!
爬虫就是一个探测机器,他的基本操作就是模拟人的行为去各个网站溜达看到数据就背回来,就像一只虫子在网上不知疲倦的爬来爬去。
爬虫能做什么
- 采集网络数据
- 自动化测试
- 做一些脱离手动的操作(帮人投票,12306抢票,微信聊天助手-itchat)
- 灰产业(薅羊毛,发起网络攻击,做水军)
数据能做什么
- 聚合产品(新闻网站,早期的今日头条)
- 搜索引擎(百度,谷歌)
- 数据分析、人工智能的源数据
- 特定领域的数据服务(二手车估价、天气预报、团购、去哪儿网等)