今天来介绍一下大数据的开发流程,虽然是大数据,其实针对于数据开发大数据和传统的关系型数据开发流程是有类似之处的,无非就是存储的方式以及处理数据的方式上有不同之处而已。
1、数据采集:也可以说是原始数据
2、数据汇聚:经过清洗可用的数据
3、数据转换和映射:经过分类。提取的专项数据
4、数据分析:模型的应用
5、数据可视化:分析好的数据可视化,更直观。
数据采集
数据采集有线上和线下两种方式,线上一般通过爬虫、通过抓取,或者通过已有应用系统的采集,在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用python或者nodejs制作爬虫软件),ETL工具、或者自定义的抽取转换引擎,从文件中、数据库中、网页中专项爬取数据,如果这一步通过自动化系统来做的话,可以很方便的管理所有的原始数据,并且从数据的开始对数据进行标签采集,可以规范开发人员的工作。并且目标数据源可以更方便的管理。
数据采集的难点在于多数据源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel统计文档、甚至是doc文件。如何将他们规整的、有方案的整理进我们的大数据流程中也是必不可缺的一环。
数据汇聚
数据的汇聚是大数据流程最关键的一步,你可以在这里加上数据标准化,你也可以在这里做数据清洗,数据合并,还可以在这一步将数据存档,将确认可用的数据经过可监控的流程进行整理归类,这里产出的所有数据就是整个公司的数据资产了&#