大数据在规划行业被炒的热火朝天,但是大多数人还是处于不知所以然的程度,应用于日常和工作更是遥遥无期。
关键的大数据被互联网巨头、手机运营商、政府机构所垄断,获取难之又难。
再看网上免费的数据接口,比如聚合数据,阿里数据,大部分都是收费的,想用于非商业的研究用途,大部分人还是用不起的。
所以,想要获取有质量并且还要保证数量的数据就要靠我们自己了。
当然如果编程能力强的话可以自己写程序来爬取,我这里就偷个懒,直接用人家写好的了。。。
这里我使用的是火车采集器的免费版,我以爬取大众点评的数据为例。
下面是我爬取到的一些数据
一、网站分析
首先我们要分析大众点评的URL
选择邯郸: http://www.dianping.com/handan
点击美食:http://www.dianping.com/handan/food
选择任意商业区:http://www.dianping.com/search/category/27/10/r12577
选择一个商户:http://www.dianping.com/shop/22057739
我们发现这些URL都是非常有规律的,这些规律将帮助我们爬取数据!
我们再来审查任意页面的源码
我们观察每个部分的分布位置,会缩小我们的爬取范围,加快爬取速度。