爬虫软件爬取公开网络数据案例(以大众点评为例)

本文介绍了如何使用火车采集器免费版爬取大众点评网站的公开数据,包括网址采集规则设置、内容采集规则设定,以及数据导出为excel的过程,旨在帮助读者获取并整理大量餐饮数据。
摘要由CSDN通过智能技术生成

这里写图片描述

大数据在规划行业被炒的热火朝天,但是大多数人还是处于不知所以然的程度,应用于日常和工作更是遥遥无期。

关键的大数据被互联网巨头、手机运营商、政府机构所垄断,获取难之又难。

再看网上免费的数据接口,比如聚合数据,阿里数据,大部分都是收费的,想用于非商业的研究用途,大部分人还是用不起的。

所以,想要获取有质量并且还要保证数量的数据就要靠我们自己了。

当然如果编程能力强的话可以自己写程序来爬取,我这里就偷个懒,直接用人家写好的了。。。

这里我使用的是火车采集器的免费版,我以爬取大众点评的数据为例。

下面是我爬取到的一些数据

这里写图片描述

一、网站分析

首先我们要分析大众点评的URL

首页 :http://www.dianping.com/

选择邯郸: http://www.dianping.com/handan

点击美食:http://www.dianping.com/handan/food

选择任意商业区:http://www.dianping.com/search/category/27/10/r12577

选择一个商户:http://www.dianping.com/shop/22057739

我们发现这些URL都是非常有规律的,这些规律将帮助我们爬取数据!

我们再来审查任意页面的源码

这里写图片描述

我们观察每个部分的分布位置,会缩小我们的爬取范围,加快爬取速度。

二、网

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值