大数据
文章平均质量分 50
大数据相关知识
视在数科
追求卓越,卓越会逐渐追上你!
展开
-
hive数仓开发之-数据表
建表在数仓里,数据表可以分为内部表和外部表。内部表和外部表的区别是内部表的数据存储是在当前用户所在的hdfs目录下,而外部表则不是。内部表和外部表内部表在hdfs上的常见文件存储格式有 textfile,orc,rc,pqrquet 等存储格式,每种格式的优劣这里先不做具体展开,项目上基于性能和存储考虑,一般选择orc 或者是parquet,o确切来说orc比parquet更省存储,性能差不多。如果是考虑后续更换计算引擎(比如说是spark,或者是impala) 那还是选用parquet 更适合一原创 2021-06-04 17:03:08 · 409 阅读 · 0 评论 -
浅谈一下如何进行一次数据调研
数据调研的目的: 这是调研的核心,目的是搞清楚现场的环境,资源,以及想达成的效果(效果能不能达成,以现有的资源达成多少,以及实现这一过程的复杂程度、难度)调研的对象: 客户(甲方爸爸,项目的核心是为了解决甲方爸爸的需求,为甲方提供服务) 以及客户的其他开发商,或者需要甲方协调的其他部门、外部部门的资源方。调研的阶段 立项之前的需求沟通。调研的内容:1.客户这边的最原始需求是什么,比如说甲方要做一个搜索的系统,要实现1,2,3,4,5的功能...原创 2021-05-13 11:42:45 · 2220 阅读 · 0 评论 -
数仓建设方法(1)
数据仓库建设方法1.明确业务需求,所有的数据仓库建设是基于业务需求设计的。 换言之,如果只是单纯的为了数仓建设了一堆的数据模型,业务无法使用的数仓是没价值的。数据仓库是为了业务服务。同时,在设计主题模型的时候,也要考虑到业务的一些扩展和通用特征。在此基础上确认数仓的层级结构,以及通过怎么样的方式给应用提供服务2.基于业务的需要,明确所需建设的主题以及所需的维度。 例如(人员档案、商品销售情况报表,财务报表......),在更多是一些对象(人、用户)的画像(人的行为、标签,基本信息.......)。原创 2021-03-29 16:07:49 · 407 阅读 · 0 评论