大数据分析的工作流程以及各流程常用工具
1. 数据收集与导入
在大数据时代,“数据”不只是表格数据,更多的是非结构化数据(图片,声音,视频)。随着需要收集的数据量的增大,数据的实时收集、实时处理变得不是那么容易。
Spark和Kafka等软件就是针对以上问题开发的目前最流行的开源数据接入(数据接入, 数据处理和数据仓库技术)工具。他们可以对海量信息的实时收集,处理和存储。
2. 数据质量控制
由于收集到的原始数据往往会有很多脏数据和错误数据,因此对数据质量进行控制也是十分必要的。
在目前的自动清洗数据的相关研究开发之中。最受瞩目的当属HoloClean:一个半自动数据修复框架,其依赖于统计学习和推理来修复结构化数据中的错误。它可以扩展到大型真实世界的脏数据集,并执行比最先进的方法还要准确两倍的自动修复功能。
3. 数据管理与存储
在大数据的处理中,如何管理数据,也即,如何快速准确地从已有的海量数据中数据操作(查找数据,删除数据,修改数据等)是一个十分关键的问题。这也是数据库系统产生的背景。
目前主流的数据库有:MySQL, Oracle , PostgreSQL, Hive等。
4. 数据分析与可视化
数据分析以及可视化工具:FineBI,Tableau,FineReport等
(参考:https://zhuanlan.zhihu.com/p/157499522、https://zhuanlan.zhihu.com/p/45690389)
5. 数据建模与模型管理
产生背景:越来越多的业务,越来越多的信息化系统,让很多公司拥有了海量数据,但是分散的数据、隔离的系统,又形成了一个个数据孤岛。于是,可以处理不同条线不同场景的数据,将它们进行整合,最终形成统一、规范、易用的数据仓库的技术应运而生。数据建模,简而言之就是通过对数据的整合和存储做一些指导,提升数据的可用性和可读性。(https://zhuanlan.zhihu.com/p/136672329)
目前主流的数据建模与模型管理工具:
PowerDesigner(https://zhuanlan.zhihu.com/p/300643260)、
ERstudio、PDManER
等。(https://blog.csdn.net/weixin_40445684/article/details/107226675)
6.常用的数据分析方法
(https://baijiahao.baidu.com/s?id=1597444168917673959&wfr=spider&for=pc&searchword=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%AE%97%E6%B3%95)
分类,回归,聚类, 相似匹配,频繁项集,统计描述,链接预测, 数据压缩, 因果分析.