关于数据获取的几点经验

俗话说:“巧妇难为无米之炊”,这说的是即使媳妇厨艺高超,如果没有食材的话也会一筹莫展。对于数据分析领域,首要面对的问题也一样:如何获得数据。本文就对数据获取的方方面面作个小结,以供各位“巧媳妇”参考。

数据获取也需要有一个流程框架,不然会出现乱找一起的局面,好点的情况是不全面,不好的情况是完全寻不着,以下小结了我总结的数据获取流程:

 

(1)公开数据库

这些公开数据库提供的数据结构良好,而且来源可信,是数据来源的首选。代表性的有:

国外:

ProPublica数据库:https://projects.propublica.org/data-store

Google公共数据资源:http://www.google.com/publicdata

世界银行数据库:http://data.worldbank.org.cn

... ...

 

国内:

中华人民共和国国家统计局:http://www.stats.gov.cn

... ...

 

(2)搜索引擎

其实公开数据库中也会用到搜索,只不过其搜索的范围是自身数据库。如果公开数据库中不能获取,那么我们就可以使用搜索引擎从整个互联网中寻找。最常用的搜索引擎有百度和谷歌(谷歌需要翻墙使用),另外还有一些不太常用但是某些方面比较独到的搜索引擎,比如新浪爱问。

 

(3)网页抓取

如果以上两种方式均不能满足,那么可以直接网页抓取,前提是你已经找到了存放数据的一系列网页,这时候就可以利用抓取软件(如import.io等)或者编程(如R或Python)获取。不过采取这种方式获取的数据往往需要进行清洗工作,抓取完成后就需要OpenRefine上场了。

 

以上三种方式将另文详细分别作介绍,其实除了上述三种方式外,我们还可以通过申请政府信息公开获取数据,或者采取互联网众包方式获取数据,但其较难操作且效果不易把控。另后续将对以上三种数据获取方式作专题介绍。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值