数据收集
文章平均质量分 52
数据小刀
运营商小虫
展开
-
关于数据获取的几点经验
俗话说:“巧妇难为无米之炊”,这说的是即使媳妇厨艺高超,如果没有食材的话也会一筹莫展。对于数据分析领域,首要面对的问题也一样:如何获得数据。本文就对数据获取的方方面面作个小结,以供各位“巧媳妇”参考。数据获取也需要有一个流程框架,不然会出现乱找一起的局面,好点的情况是不全面,不好的情况是完全寻不着,以下小结了我总结的数据获取流程: (1)公开数据库这些公开数据库提供的数据结构原创 2017-06-04 12:14:11 · 5220 阅读 · 0 评论 -
公共数据库介绍~OpenCorporates
世界上最大的公司信息数据库。 网址:https://opencorporates.com/个人对几个菜单进行了尝试,这个数据库类似于公司信息搜索引擎。比如在搜索框中搜索“IBM”:就搜索到了1704家包含关键词IBM的公司,右侧可以按照具体地理位置做筛选,右上可以社交分享,或者获取XML/JSON格式,或者直接下载CSV或XLS格式文件。不过是要收费的。所以原创 2017-06-11 10:44:10 · 11503 阅读 · 0 评论 -
公共数据库介绍~OECD经合组织数据库
OECD是一个庞大的在线统计数据库,OECD是指经合组织,现经合组织共有35个成员国,它们是:澳大利亚、奥地利、比利时、加拿大、智利、捷克、丹麦、爱沙尼亚、芬兰、法国、德国、希腊、匈牙利、冰岛、爱尔兰、以色列、意大利、日本、韩国、拉脱维亚、卢森堡、墨西哥、荷兰、新西兰、挪威、波兰、葡萄牙、斯洛伐克、斯洛文尼亚、西班牙、瑞典、瑞士、土耳其、英国、美国。该数据库包含了以上国家的相关统计信息,比如GDP原创 2017-06-10 21:07:37 · 23050 阅读 · 0 评论 -
公共数据库介绍~联合国数据库UNDATA
公共数据库-联合国数据库UNDATA 联合国数据库提供免费数据检索和下载服务。其数据总量为6000万条。涵盖了农业、犯罪、教育、就业、能源等方方面面。 网址:http://data.un.org数据库的使用都是大同小异的,因为其均为英文,所以我觉得使用UNDATA最方便的还是使用上图中Databases列,我们可以看到有英文Crime(犯罪)和Education原创 2017-06-09 11:07:29 · 15368 阅读 · 0 评论 -
公共数据库介绍~datahub
DataHub是一个免费且强大的数据管理平台。其包含了大量国家、地方政府、研究机构等收集的数据。 网址:https://datahub.io/zh_CN/ 使用前最好调整语言为“中文”:点击导航栏中的“数据集”进入:左侧可以选择“机构”,右侧可以直接搜索关键词,排序项可以进行设置。即可获得自己想要的数据,不过搜索需要英文,所以如果对英文不大熟原创 2017-06-08 19:57:50 · 11988 阅读 · 0 评论 -
公共数据库介绍~世界银行World Bank
公共数据库-世界银行World Bank 如果需要分析国家的相关数据信息,那么“世界银行World Bank数据库”将是不二选择。我们可以在该数据库中免费获取世界各国的发展数据,其提供了超过9000个的指标文档。并且其类似于“google公共数据库”,通过简单的点选即可形成可视化展示,也可以很容易的分享到你的网页中。 网址:http://data.worldbank.org.cn/原创 2017-06-07 08:43:06 · 30173 阅读 · 0 评论 -
关于搜索引擎使用的小技巧
我们这里以百度和谷歌为例做介绍。一般大众使用搜索引擎的话都是在首页中直接输入关键词,如果有多个信息就同时输入多个,然后以空格互相隔开,比如:这存在一个问题就是搜索结果量太过庞大,时效性不高,也就是说很多年前的东西也会被搜出来。针对这个问题我们可以使用搜索命令来做限定,不过一个更好的办法是直接使用百度高级搜索界面:直接百度搜索“百度高级搜索”:点击第一个进入:原创 2017-06-17 09:02:43 · 5054 阅读 · 0 评论 -
公共数据库介绍~ProPublica
ProPublica是一家针对美国社会公共兴趣进行调查报道的独立非营利机构。专注于真实重要的事件-用报道彰显道德力量。通过报道工作揭示弱者到强者的真相,并且为正义辩护。ProPublica包含一个数据库,其可以让你访问网站报道中的数据,这可以帮助你低成本的完成本来具有挑战性的且昂贵的调查报告。网站提供了我们报道后的原始数据,还提供高级数据及定制化数据服务。这些及其他主动性的支持保证了 ProP原创 2017-06-06 08:46:25 · 7040 阅读 · 0 评论 -
网页中表格还可以这样处理~一个强力的火狐表格插件TableTools2介绍
数据就在网页上,复制黏贴实在烦,即使辛苦搞下来,还得费力来清理,导到excel搞图表,还得word做表报。呵呵,自己写了一首打油诗。其实这也是曾经从网页上获取过数据的兄弟姐妹的普遍苦恼。最近发现一款火狐表格插件TableTools2,尝试使用了一下,发现其实在太方便了,对于网页表格的处理尤其给力,其真正实现了发现网页表格,就可以直接处理分析。首先你得安装火狐浏览器,百度搜索安装即可;安装后原创 2017-06-16 09:42:02 · 10351 阅读 · 2 评论 -
公共数据库介绍~google公共数据
该公共数据库是由Google在2010年创建,旨在让用户更加容易的理解和分享数据。Google公共数据资源管理器突出的特点是可以直接对自身数据库中的数据进行可视化分析,省却了获取数据,再选择合适分析展示软件的过程。 网址:http://www.google.com/publicdata Google公共数据资源中中文项貌似没有数据,所以需要选择右边“语言”下拉菜单,一般选择原创 2017-06-05 12:18:25 · 13782 阅读 · 0 评论 -
如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据
在数据获取的时候总会碰到很多非标准格式的文档,比如为了web显示良好,很多网站将excel文件转换成了pdf格式,还可能直接使用图片格式,而这类文档中的数据是无法直接用来作数据分析的。举个例子如下:环境保护部2008年中国环境统计年报就为pdf格式,我们想获取其中的一份数据表,一般的想法我们认为可以采用复制黏贴的方式复制数据,原始数据表如下:手工复制到excel中会发现所有同一行数原创 2017-06-15 10:58:43 · 6235 阅读 · 0 评论