通信大数据行业掌握着体量巨大的数据资源,运营商手机用户每天产生的话单记录、信令数据、上网日志等数据可达到PB级的数据规模。同时未来多方技术融合必将成为趋势,随之带来的是数据增长呈井喷态势。通过通信大数据分析,可以改变营销方式、改善客户体验、开发和销售新的产品、对通信网络进行优化等。现需要搭建通信大数据处理平台,实现通信大数据的采集、存储、处理和分析。
- 问题分析和项目实施规划
大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析。通信大数据行业掌握着体量巨大的数据资源,运营商手机用户每天产生的话单记录、信令数据、上网日志等数据可达到PB级的数据规模。同时未来多方技术融合必将成为趋势,随之带来的是数据增长呈井喷态势。通过通信大数据分析,可以改变营销方式、改善客户体验、开发和销售新的产品、对通信网络进行优化等。所以首先要进行数据抽取,对海量数据进行预处理并进行数据存储。而后使用Hadoop,Kafka,Spark,HBase等搭建平台。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
HBase是一个分布式的、面向列的开源数据库,HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
项目规划:
- 统一平台基础能力,强化计算、挖掘及系统管理能力;
- 统一核心处理能力,整合各系统的数据分层体系;