诸葛io的技术架构图_大数据平台的技术演化之路 诸葛io平台设计实例

作者简介:本文来自诸葛io创始人孔淼的技术分享。诸葛io是业内领先的智能数据决策平台,也是国内早期的数据分析践行者。本文将从诸葛io平台设计实例,分享大数据平台的技术演化之路。如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理、识别、加工、呈现,最后成为指导企业业务发展的知识和智慧。而处理、识别、加工、呈现的过程从本质上来讲,就是实现对数据的采集、清...
摘要由CSDN通过智能技术生成

作者简介:本文来自诸葛io创始人孔淼的技术分享。诸葛io是业内领先的智能数据决策平台,也是国内早期的数据分析践行者。本文将从诸葛io平台设计实例,分享大数据平台的技术演化之路。

如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理、识别、加工、呈现,最后成为指导企业业务发展的知识和智慧。而处理、识别、加工、呈现的过程从本质上来讲,就是实现对数据的采集、清洗、加工、加载、建模分析,再到可视化的过程。

大数据平台的通用架构

1. 数据采集

采集是指集中企业待分析的原始数据的过程,例如可能是包含但不限于以下:

- 企业服务器的日志;

- 企业各种信息系统的数据(CRM/ERP/数据库);

- 企业的网站/App/小程序等客户端的用户行为记录;

- 使用的第三方系统(客服、IM、HR)提供的API;

采集的方式基本上分为两种:

PUSH模式:企业的数据一般来讲都是散落在很多地方,各种系统或者各种服务器,所以有一个数据采集中心,然后在各个数据产生的位置都有一个agent(可以认为是采集程序)然后朝数据采集中心发送数据的过程就是PUSH,比如在App或者网站植入了SDK,定期发送采集到的用户行为数据到服务端的过程就是PUSH模式;

PULL模式:企业有数据采集中心,从采集中心去访问获取各个数据产生点的数据,这个过程就是PULL,比如从企业的数据中心去调用第三方系统的API获取数据,就是PULL模式。

2. 数据的清洗

数据清洗的过程是指对数据进行一些处理,过滤无用的信息,规范得到能用到的数据。包括但不限于以下情况:

- 过滤SPAM垃圾数据,例如被攻击/造假/BUG产生的大量数据

- 抽取有用字段,例如上传的数据包含的信息很多,只用到一小部分

- 原始数据有很多格式不规范,要统一格式

3.数据的加工

数据加工是指清洗后的数据,还需要补充一些信息,可能是通过数据库查询出来的,也可能是通过计算规则计算出来的,或者算法技术加工出来的新字段。

例如,数据里面有个ip地址,需要计算出用户的地理位置,那么地理位置就是加工出来的字段。一般来讲,对于大多数大数据分析平台而言,加工是很重要的过程,基本上最后可用来进行分析的数据,要通过这一步充分完成加工计算。

4. 数据加载

数据加载是指把加工后的数据加载到合适的存储,可能是Hadoop集群的HDFS上,也可能是某个数据库,有可能是文件等等其他存储类型。

5. 建模分析

建模分析是指在查询前需要把数据进行处理,以优化查询,例如以下:

- 数据仓库建好了仓库模型,要把数据加载到数据仓库中

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值