1. 概念
用传统方法或工具无法解决的数据。在合理的时间内无法达到数据的加工、处理和传递,并整理成帮助企业经营决策的信息。
2. 特点
(1)数据量大。
(2)类型多。
(3)处理速度快。
3. 数据来源
人与人、人与机器、机器与机器的交互时产生的数据。比如:互联网,物联网、手机、传感器等。
4.涉及的技术
分布式计算与存储(hadoop)、非关系型数据库(hbase)、数据仓库(hive)。机器学习、数据挖掘。
5.面临的问题
(1)存储。
(2)容错性。
(3)读取能力。
6.大数据的处理流程
(1)数据采集。
(2)数据预处理:Sqoop。
(3)数据存储:HDFS、Hbase。
(4)数据分析/挖掘:Hive、Mahout。
(5)结果展现:报表形式、KPI展示、图形化展示、查询展示。
7.应用场景
(1)客户洞察(客户细分、根据数据挖掘与行为分析制定营销计划、提高客户体验)。
(2)营销规划(锁定目标、精准营销、营销转型)。
(3)产品创新(客户的使用习惯与爱好)。
(4)物流管理(库存)。
(5)流程优化(如:3步到位优化成1步到位)。
(6)风险控制。