说说数据那些事

本文探讨了数据的来源,包括业务系统、app等,以及数据处理的方法,如flume、sqoop和canal等工具。数据处理涉及数据格式化、统一化,并通过大数据处理引擎如mr、spark、flink进行分析。最后,数据去向涉及数据的利用,如数据仓库和数据集市,以API、表或图的形式提供数据服务。数据模型和监控系统在确保数据质量与稳定性方面起着关键作用。
摘要由CSDN通过智能技术生成

标题: 说说数据那些事
日期: 2021-07-28 22:53:38
标签: [数据仓库,数据]
分类: 数据

今天来说说我做数据这些年的一些感悟和体会,希望能够讲的通俗易懂,化繁为简,给刚入门的小伙伴一些帮助。
数据仓库

数据,是当今世界很重要也很值钱的东西,从哪里来,怎么处理,到哪里去,这是要弄清楚的最基本路线图,本文分着3个部分来分别讲解。

  1. 从哪里来
    数据从哪里来的呢,从业务系统(网站浏览、点赞、评论等交互数据)、app、小程序、邮件系统等等系统产生,存储在关系型或菲关系新数据库中,或者直接落地磁盘,等待被拖走,然后进行下一步处理。
    目前数据接入的方式有很多,比如flume监控日志,sqoop离线从数据库导数据到目的端,canal、dbz监控数据库binlog获取最新增删改的实时数据等。

  2. 怎么处理
    在数据领域,处理数据就是将业务数据按照规范进行格式化、统一化,利用现有的技术手段,进行数据加工转换,变成我们想要的东西,然后进行数据分析、数据挖掘等,提供价值信息。
    那么现在的java python均可作为数据处理的语言选择,利用处理引擎mr、spark、flink进行批量并行处理,大数据的分而治之思想就是在大量数据处理的时候找到的。
    大数据时代,如何从大量的数据中抽取出我们想要的价值数据,就需要分而治之的思想,并行处理,能够大大利用现在廉价的机器资源,并且很重要的一点就是,如何进行数据筛选,如果在处理计算之前,过滤掉大部分数据,就会减少处理时间,提高数据响应度。

  3. 到哪里去
    数据去哪里,就是我们如何利用这些规范化的数据,去分析、挖掘,找到我们想要的数据,想要的数据,如何展示,以图表?文件?excel?方式呈现在需求方呢,这就是数据的去向。数据去向在数据仓库中就是app或者数据集市层,对外以api、表、图的形式对外提供数据服务。
    那么为了更好地提供数据服务,我们应该做好数据处理才行,于是就有了数据模型,一个好的模型,可以在同一个业务范围内,提供统一标准化的数据,也规范了统计口径,对下游使用方来说,减少了不必要的口径问题,也提供了好用的数据,这就是数据模型的作用,在数据处理阶段的重要职责。

    为了让每天的数据能够稳定、高效、及时地产生,就少不了数据监控系统,但系统稳定,也不能代表不会出现什么问题,有可能是数据的问题,从源头开始就出现错乱数据,那么监控系统少不了,在监控我们自己的数据系统的同时,也要监控到数据源端,保证从源头就没有问题。

记得点个赞👍哦,你的鼓励就是我的动力。


吾之初心,永世不忘。

欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
程序员写书

喜欢宠物的朋友可以关注:【电巴克宠物Pets】
电巴克宠物

一起学习,一起进步。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

chenzuoli

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值