数据分析入门——各种数据源

数据源

开放数据集

一般是针对行业的数据库。比如:

美国人口调查局

提供人口信息,地区分布和教育情况等美国公民相关的数据:http://www.census.gov/data.html

欧盟

欧盟开放数据平台,提供欧盟各机构的大量数据:http://open-data.europa.eu/en/data/

Facebook

Facebook官方提供的API,用于查询该网站用户公开的海量信息:https://developers.facebook.com/docs/graph-api

Amazon

亚马逊网络服务开放数据集:http://aws.amazon.com/datasets

Google

谷歌金融,收录了40年以来的股票数据,实时更新:https://www.google.com/finance

北京大学

北京大学开放研究数据平台:http://opendata.pku.edu.cn/

imageNet

目前世界上图像识别最大的数据库:http://www.image-net.org/

爬虫抓取

一般是针对特定的网站或APP。在Python爬虫中,基本上会经历三个过程。

  1. 使用Requests爬取内容,即使用Requests库来抓取网页信息。
  2. 使用XPath解析内容。XPath,即XML路径语言,它是一种用来确定XML文档中某部分位置的语言,可以通过元素和属性进行位置索引。
  3. 使用Pandas保存数据。可以用Pandas保存爬取的数据,最后通过Pandas再写入XLS或MySQL等数据库中。

日志采集

日志记录了用户访问网站的全过程:哪些人在什么时间,通过什么渠道,都执行了哪些操作;系统是否发生了错误;甚至包括用户的IP、HTTP请求的时间,用户代理等。日志采集可以分两种形式:

通过Web服务器采集

例如httpd、Nginx、Tomcat都自带日志记录功能。还有其他采集工具,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。

自定义采集用户行为

例如用JavaScript代码监听用户的行为、AJAX异步请求后台记录日志等。

日志收集有助于我们了解用户的操作数据,适用于运维监控、安全审计、业务数据分析等场景。一般Web服务器会自带日志功能,也可以使用Flume从不同的服务器集群中采集、汇总和传输大容量的日志数据。

传感器

传感器基本上采集的是物理信息。比如图像、视频或某个物体的速度、压强等。传感器采集基本是基于特定的设备,将设备采集的信息进行收集即可。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值