大数据处理过程的通俗理解

大数据处理过程的通俗理解

转载声明:

本文系转载自以下文章:

转载仅为方便学习查看,一切权利属于原作者,本人只是做了整理和排版,如果带来不便请联系我删除。

摘要

“大数据分析”这么高大上,怎么讲才能最通俗呢,做饭和大数据有什么关系呢?请听下面分析:
摘要

0x01 原始数据

菜地里的毛菜(原始系统的数据,有错误,不精准,毛菜有泥巴,有黄叶子),相当于ERPPDM系统里面的原始数据。
阶段1

0x02 数据源到ODS

从菜地里采集到家,分门别类的堆在一起(初步去掉泥巴,黄叶子,分类堆放),相当于从原系统到ODS

ODS的意思是操作数据,即原始系统中的操作数据的一个副本,与原始数据是一模一样的,叫贴源,这个过程就叫数据采集、清洗、转换,即ETL干的事情,这个阶段叫初加工。
数据源到ODS

0x03 ODS到数据仓库

把拿回家的各种菜洗净,去皮,按大小分类,去掉小的、烂的蔬菜,可以卖给超市了。

对BI项目来说,就是从ODS到数据仓库的过程,数据的精加工过程,去伪存真,也要用到ETL来清洗转换,对缺项的数据补充完整,比如合并数据,合并字段,增加主数据描述字段,补充分类等。

0x04 数据仓库到数据集市

从菜农卖到超市,超市还要经过一次加工,比如包装成一小包一小包的,把蔬菜放在一起,水果放在一起,便于顾客直接购买。

这一步就是从数据仓库到数据集市的过程,数据集市就是包好、称好的净菜,价签已经打好的了,顾客直接付款可以拿走了。

从数据仓库到数据集市就是形成一个一个的数据立方体,这个立方体的数据是加工好的,可以单独发布出去,离线使用,相当于一个execl数据文件,你可以用EXECL工具打开,也可以用WPS打开,打开以后,可以用表格表示,也可以用图表表示。

超市

0x05 报表制作

妈妈配菜,妈妈根据家人一天要吃的菜肴规划,挑选各种各样的菜、肉组合在一起,有的直接可以食用,有的需要再加工,即烹调,然后端出来摆到餐桌上,家人只需要带一张嘴即可享用。

对BI项目来说,就是报表的制作过程,业务分析人员,根据领导的要求,按照各个主题需求,从各个数据立方体中、或者一部分从数据仓库中取一些数据组合起来,并且定义展现方式,即把报表做好,发布出来,放到门户上,给与权限控制,哪些人可以享用这桌美味,这就是报表制作这个阶段干的事情。

所以说,业务人员是否可以拖拽制作报表,关键看前面的数据立方体准备好没有。相当于是这样的,不是人人都是烹调高手,但是超市里面有很多配好的菜(葱姜蒜都有了),你只要拿回去放放锅里炒5分钟或者蒸煮10分钟,端出来即可,不难吧。至于加工的工具是微软家的锅还是IBM家的灶,或者oracle家的瓢,有什么关系呢,这些都是报表制作工具(烹调工具而已)。
报表制作

0x06 管理人员查阅报表

享受美味佳肴,把做好的一桌筵席,放到门户上,当然是给有权限的人享受。

对应到工作就是决策层查阅所有结果报表。

查阅报表

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
高分笔记系列书籍简介高分笔记系列书籍包括《数据结构高分笔记》《组成原理高分笔记》《操作系统高分笔记》《计算机网络高分笔记》等,是一套针对计算机考研的辅导书。它们2010 年夏天诞生于一群考生之手,其写作风格突出表现为:以学生的视角剖析知识难点;以通俗易懂的语言取代晦涩难懂的专业术语;以成功考生的亲身经历指引复习方向;以风趣幽默的笔触缓解考研压力。相信高分笔记系列书籍带给考生的将是更高效、更明确、更轻松、更愉快的复习过程数据结构高分笔记简介众所周知,在计算机统考的四门专业课中,最难拿高分的就是数据结构。但是这门课本身的难度并不是考生最大的障碍,真正的障碍在于考生不能独自把握复习方向和考试范围。也许有学生要问,我们不是有大纲吗?照着大纲去复习不就可以了吗?表面上看是这样的,但是当你真正开始复习的时候就会发现,其实大纲只给了考生一个大致范围,有很多地方是模糊的,这些模糊的地方可能就是你纠结的地方。比如大纲里对于栈和队列的考查中有这么一条:“栈和队列的应用”。这个知识点就说得很模糊,因为只要涉及栈和队列的地方,都是其应用的范畴,这时考生该怎么办呢?于是把所有的希望寄托于参考书,希望参考书能帮助我们理解大纲的意图。参考书分为两种:一是课本,二是与课本配套的辅导书。对于课本,考生用得最多的就是严蔚敏老师编写的“严版”《数据结构》。因为这本书的内容非常丰富,如果能把这本书中考试大纲要求的章节理解透彻,参加考研就没有任何问题,但是这个过程是漫长的,除非本科阶段就学得非常好。计算机统考后,专业课四门加上公共课三门,一共是七门,绝大多数考生复习的时间一般也就六个月,而数据结构的复习需要占用多少时间,这点大家都很清楚。要在这么短的时间内掌握“严版”《数据结构》中考纲要求的知识点,基本上是不可能的,这就需要一本辅导书来依照大纲从课本中总结出考纲要求的知识点,才能使得考生在短时间内达到研究生考试的要求。面上的参考书有两种:一种是四合一的辅导书,另一种是分册的。比如网上流行的《1800 题》及其第2 版,此书中题目极多,并且有很多老式的考研题,有些算法设计题的答案是用Pascal语言写的。这本书中的题目一般考生全做基本上是不可能的,挑着做又会把时间浪费在选题上。不可否认,这本书确实是一本非常好的题库,但是考生直接拿来用作考研辅导书却不太合适。在这种情况下,就需要有一本优质的完全针对新大纲的辅导书出现,这就是高分笔记产生的原因。 接下来详细介绍一下这本辅导书的写作过程,请看下图: 前 言VII图中所涉及的书都是大家很熟悉的。当年这些书编者都买了,花了很大心思才从中找出在考研战场上真正有用的东西。比如《1800 题》,里边既有好题,又有废题,相信很多人都希望有人能从中去掉重复的题目,选出大纲要求的题目,并能把解答写得更通俗易懂些,而现在编者所做的工作就是从这1800 道题中选出大纲要求的题目,并且修正部分解答,使其更容易理解。其次是“严版”《数据结构》,此书写得很严谨,语言表述非常专业,但对于基础稍差的学生来说读起来十分费力,要很长时间才能适应这本书的写作风格。如果有一本辅导书能把那些复杂程序的执行过程、拗口的专业术语、令人头大的符号翻译成容易理解的语言,就可以节省考生很多时间,因此,编者所做的事情就是根据自己复习的经验,以及对这本书的理解,把其中考试不需要的内容删掉,把需要的内容改造成一般考生容易接受的形式。对于李春葆老师的《数据结构习题与解析》,也做了类似的处理,并且在这本书中穿插讲解了一些考试大纲中没有明文规定,但是很多算法题目中大量用到的算法设计思想,来帮助大家提高解算法设计题的能力,比如搜索(打印图中两结点之间的所有路径)、分治法(二分法排序、求树的深度等)等算法思想。因此,相信本书会给读者的考研复习带来很大的帮助。 另外,本书配有微信公众号来收集读者的反馈,这也是本书不断更新完善的重要途径,即根据考生最需要的内容来作为调整讲解的依据。 本书特点: (1)精心挑选出适合考研的习题,并配上通俗易懂的答案,供读者自测和练习。 (2)总结出考研必备知识点,并且帮读者把其中过于专业、过于严谨的表述翻译成通俗易懂的语言。 (3)针对近年数据结构大题的出题风格(比如算法设计题目中的三段式题目:①表述算法思想;②写出算法描述;③计算算法的时间和空间复杂度),设计了独特的真题仿造部分,让读者在复习的过程中逐渐适应不同类型的题目。 参加本书编写的人员还有:章露捷,刘建萍,施伟,刘炳瑞,刘菁,孙琪,金苍宏,2019 版数据结构高分笔记VIII蔡明婉,吴雪霞,孙建兴,张继建,胡素素,邱纪虎,率方杰,李玉兰,率秀颂,刘忠艳,赵建,张兆红,张来恩,张险峰,殷凤岭,于雪友,周桂芝,张玉奎,李亚静,周莉,李娅,刘梅,殷晓红,李艳红,王中静,张洪英,王艳红
一份优秀的数据分析报告产出流程 在每次的数据分析工作中,将分析过程与结果写成一份通俗易懂的报告是工作的最后 一步,但是这对于一些人来说,也是最难的一步。 一份技术报告的目的是传递信息。然而,技术信息是很难让人理解的,因为它不仅复 杂,而且无法让人轻易的了解。将数学焦虑等融入到任何事情都可以被统计数据证实 这一流行观念中,你就可以明白为什么做数据分析报告是一份挑战。 一个人撰写有效的数据分析报告的能力不应该被假定。它和为课堂作业写一份只有指 导员才去看的课题报告不是一回事。 十分肯定的是,如果你还没有上过与撰写数据分析报告相关的大学课程或者职业发展 课程,没有在工作中接受过相关的指导,并且也没有做过独立的相关性阅读,那么, 你需要学习一些关于撰写技术报告的知识。 撰写报告就像是任何其他的技能一样,要通过学习具体的流程和不断练习才能提升。 下面是四件你可以尝试用来提高你的技能的事情。 自主学习:了解其他人对技术写作的认识。浏览与"统计分析报告"和"技术写作"有关 的网站,这种网站有数以百万个。阅读相关书籍或指导手册,通过雅虎,谷歌或者 领英加入到相关的网络小组中去。将你自己沉浸在这个话题中,就像你在学校里做 过的那样。 了解批评:在你的职业生涯中,你将给出或者收到很多关于技术报告的批评。并不是 所有的批评都具有相同的价值。首先,你需要考虑是谁在批评?有的评论家从来没 有写过数据分析报告,甚至有的从来没有分析过数据。但是,如果这个批评家是那 个付账单的人,那你还是想办法受着吧。如果是你给出批评的话,你需要学习如何 给出有建设性的批评。要尊重报告写作者对写作结构和形式的判断,除非这份报告 实在是太糟糕了。关注内容,做个友善的人。 下载案例:在网上寻找关于数据分析报告的例子(提示:搜索的时候加上"pdf"和" 下载"可能会有帮助)。评论这些例子。这些报告的受众是谁?传递的信息是什么 ?每份报告的优缺点有哪些?哪些报告你觉得属于好的例子?他们做的哪些工作是 你在将来工作时可能会想去做的? 找到适合你的:当你在网上查找与技术写作相关的建议或者学习知识渊博的指导员开设 的课程时,你将会听到一些不同的观点。每个人都会提到受众和内容,但是大部分人 在报告结构、写作风格及如何进行写作方面的观点都很有局限性。如果专家让你做的 事情感觉不对的话,那就忽略它。只要确定你最终选择的方法适合你自己及将会读到 你的报告的受众就好了。 如果上面的四点你都做了,那么接下来就仅仅是练习的问题了。你会从你撰写的每份 报告里学到一些东西。如果你对数据分析报告撰写流程很陌生的话,那么可以考虑从 以下三方面进行学习。 01 明确内容 从你最了解的部分着手开始。在写一份数据分析报告时,你最了解的部分应该是你分 析的统计数据、绘制的图形以及建立的模型。 你应该有能力去描述你是如何呈现总体特征的,如何生成这些数据的或者是提供了这 些数据的源头,在做探索性的分析时你发现了数据存在哪些问题,你是如何处理这些 数据的,对异常数据你做了怎样的处理,应用了怎样的变换方法,对于缺失的和重复 的数据你做了什么,你是如何处理违反假设的情况和不显著的结果的。 接下来,你需要决定什么是重要的内容,以及,哪些内容对报告阅读者来说是重要的 。因为除非你写的报告是面向你的大学教授或者是同龄的数据分析专业人员,否则的 话,你可以十分确定的认为没有人想听你讲你是如何解决各类问题的,你用了什么技 巧,或者你在分析数据的时候多么努力。没有人在意你的结果是来自Excel表格还是 一段自己用R语言编写的程序。 一旦整理出了你需要的信息,就为这份报告写一个概述,这样你就会知道你都要写些 什么内容。这样做可以帮助你不偏离主线。你的总结或许可以选择以下三种形式中的 一种: 1.执行总结 执行总结面对的是决策者或者那些没有足够的时间或耐心去阅读超过400字的文章的 人。把你的概述缩减到一页以内,不要使用任何术语,只提供那些决策者需要的,可 以帮助他采取适当行动的结果信息(也就是:你想要传达的信息)。 2.总括 总括面对的是大部分读者,无论他们是否会阅读这份报告。一篇总括是报告内容的删 减版,并且关注点在你想要传达的信息上。总括的内容也不应超过几页纸。 3.摘要 摘要面对的是同专业的人以及其他可以看懂数据分析的人。一篇摘要的内容通常是一 页纸或者少于一页纸,并且总结了你所做的所有的重要的工作,从定义总体到评估效 应量。摘要通常被用在学术论文写作中。一旦你知道了你的读者是谁,你就可以重新 撰写概述以便抓住读者的注意力。 02 了解读者 每篇教你自学技术写作的文章都会首先告诉读者要考虑他们撰写报告的观众。即使如 此,或许很少有作者真的这样去做。 在统计分析中,你通常会先开始考虑你想要做出推断的那些总体所具有的特征。与之 相似的,当

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值