大数据处理流程主要包括:
数据收集 --> 数据预处理 --> 数据存储 --> 数据分析 --> 数据展示/数据可视化 --> 数据应用
-- 数据收集:根据业务需求收集业务场景所需数据
-- 数据预处理:
①数据清洗---去掉噪声和无关数据(异常值、缺失值、重复值、数据过滤与纠正)
②数据集成--将多个数据源的数据结合起来存放在一个一致的数据存储中。
③数据变换--把原始数据转换为适合数据挖掘的形式。
④数据规约--主要方法为数据立方体聚焦、维度规约、数据压缩、数值规约、离散化和概念分层
-- 数据存储:存储在数据库或者HDFS上
-- 数据分析
应根据大数据应用情境与决策需求,选择合适的数据分析技术(比如关联分析,聚类分析,深度学习,提高大数据分析结果的可用性、价值性和准确性质量。
-- 数据展示和数据可视化
数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。
-- 数据应用
大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程。