kettle开发篇-大数据开发思想-Day9

前言:

目前属于信息爆炸的时代,每天生成的用户数据在500T左右,不管是起床选择开车、打车还是公交都是一种算法,为了能准时到达公司楼下,还顺便可以嗦粉吃个早餐,我们通常都会选择一种最适合我们的方式。这就是算法给我们生活带来的改变,每种选择后都会生成相应的数据,这些数据堆积到一定程度后就会对我们生活产生变化,从而养成习惯。大数据不仅在生活中给我们带来着改变,同事也为公司经营提供了决策基础,辅助决策,促进公司发展。

一、你被大数据了嘛

通常我们发现当我们使用某宝、某音后,他们会自动推荐我们想要的东西,哪怕只是今天和朋友提了一句,或者是偶尔闲聊,这些都会被大数据记住,然后推荐你需要的给你。在大数据给我们带来方便的同时,我们害怕数据安全会侵犯我的个人隐私。为了不被大数据化,我们可以搜索些我们不关注的,比如我是个男生为了不被大数据去搜索一些化妆品,衣服包包的信息,来稀释我们的用户画像信息,从而推荐就不会那么准确了。那这些大数据背后都有哪些数据处理工具和数据处理办法呢?

二、数仓、数据湖、数据中台

目前大数据中数据处理的技术离不开数仓、数据湖和数据中台的概念。其中处理数据又包括流式处理数据和批式处理数据。为了搞懂这三个东西,首先我们得弄清楚,数仓数据湖数据中台都能干啥。数仓是一个面向数据主题的仓库,里面的数据做好了标签,按分类堆在一起。数据湖是在数仓基础上,提高了存储性能,同时我按照决策需要搭建了数据集市,数据模型并提供对外的数据接口等。数据中台偏向为是一个平台,为了提高数据的复用性,快速协助克隆应用的平台。

今天我们要介绍的kettle是在数仓层,来处理大批量的数据,是一种ETL工具。优点在于功能强大,运行稳定,对于PB级别以下的数据处理非常方便。但是很难满足时效性的需求。一般属于批式处理,主要用于经营决策分析,数据预测,数据推送等业务范围。对于公司系统庞多,但是对数据时效性要求不高的,是非常契合的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

他们叫我技术总监

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值