1、数据收集工具/系统产生背景
Hadoop 业务的整体开发流程:
任何完整的大数据平台,一般都会包括以下的基本处理过程:
数据采集
数据 ETL
数据存储
数据计算/分析
数据展现
其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也 变的尤为突出。这其中包括:
数据源多种多样
数据量大,变化快
如何保证数据采集的可靠性的性能
如何避免重复数据
如何保证数据的质量
我们今天就来看看当前可用的一些数据采集的产品,重点关注一些它们是如何做到高可靠, 高性能和高扩展。
总结: 数据的来源大体上包括:
1、业务数据
2、爬虫爬取的网络公开数据
3、购买数据
4、自行采集手机的日志数据