大数据分析的工作流程以及各流程常用工具

1. 数据收集与导入

在大数据时代,“数据”不只是表格数据,更多的是非结构化数据(图片,声音,视频)。随着需要收集的数据量的增大,数据的实时收集、实时处理变得不是那么容易。
Spark和Kafka等软件就是针对以上问题开发的目前最流行的开源数据接入(数据接入, 数据处理和数据仓库技术)工具。他们可以对海量信息的实时收集,处理和存储。

2. 数据质量控制

由于收集到的原始数据往往会有很多脏数据和错误数据,因此对数据质量进行控制也是十分必要的。
在目前的自动清洗数据的相关研究开发之中。最受瞩目的当属HoloClean:一个半自动数据修复框架,其依赖于统计学习和推理来修复结构化数据中的错误。它可以扩展到大型真实世界的脏数据集,并执行比最先进的方法还要准确两倍的自动修复功能。

3. 数据管理与存储

在大数据的处理中,如何管理数据,也即,如何快速准确地从已有的海量数据中数据操作(查找数据,删除数据,修改数据等)是一个十分关键的问题。这也是数据库系统产生的背景。
目前主流的数据库有:MySQL, Oracle , PostgreSQL, Hive等。

4. 数据分析与可视化

数据分析以及可视化工具:FineBI,Tableau,FineReport等
(参考:https://zhuanlan.zhihu.com/p/157499522、https://zhuanlan.zhihu.com/p/45690389)

5. 数据建模与模型管理

产生背景:越来越多的业务,越来越多的信息化系统,让很多公司拥有了海量数据,但是分散的数据、隔离的系统,又形成了一个个数据孤岛。于是,可以处理不同条线不同场景的数据,将它们进行整合,最终形成统一、规范、易用的数据仓库的技术应运而生。数据建模,简而言之就是通过对数据的整合和存储做一些指导,提升数据的可用性和可读性。(https://zhuanlan.zhihu.com/p/136672329)
目前主流的数据建模与模型管理工具:
PowerDesigner(https://zhuanlan.zhihu.com/p/300643260)、
ERstudio、PDManER
等。(https://blog.csdn.net/weixin_40445684/article/details/107226675)

6.常用的数据分析方法

(https://baijiahao.baidu.com/s?id=1597444168917673959&wfr=spider&for=pc&searchword=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%AE%97%E6%B3%95)
分类,回归,聚类, 相似匹配,频繁项集,统计描述,链接预测, 数据压缩, 因果分析.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值