大数据(big data)
文章平均质量分 78
大数据
ths512
只要你足够优秀,不给自己设限,发展只会越来越好!!
展开
-
数据治理:元数据及元数据管理策略、方法和技术
数字化时代,企业需要知道它们拥有什么数据,数据在哪里、由谁负责,数据中的值意味着什么,数据的生命周期是什么,哪些数据安全性和隐私性需要保护,以及谁使用了数据,用于什么业务目的,数据的质量怎么样,等等。这些问题都需要通过元数据管理解决,缺乏有效的元数据管理,企业的数据资产可能会变成拖累企业利润的“包袱”。数据已经成为增强企业竞争力的核心要素,有效地管理和使用数据成为企业的刚需。越来越多的企业使用元数据管理工具来管理云计算、物联网、数据湖中所产生的数据,以便更容易地理解、更快地查找和更有效地管理企业数据,实现数转载 2022-11-02 09:11:05 · 1736 阅读 · 1 评论 -
数仓中概念术语解析
比如最近七天的订单量,一个促销活动的购买转化率等。一个指标具体到计算实施,主要有以下几部分组成指标加工逻辑,比如count,sum,avg维度,比如按部门、地域进行指标统计,对应sql中的groupby业务限定/修饰词,比如以不同的支付渠道来算对应的指标,微信支付的订单退款率,支付宝支付的订单退款率。对应sql中的where。除此之外,指标本身还可以衍生、派生出更多的指标,基于这些特点,可以将指标进行分类。...转载 2022-07-20 09:06:42 · 1590 阅读 · 2 评论 -
StarRocks ddl语法
https://blog.csdn.net/ult_me/article/details/122313391转载 2022-07-05 15:16:23 · 4414 阅读 · 0 评论 -
linux ssh免密登录配置
在hadoop集群搭建的过程中,通常会对集群服务进行群启/群停的操作,而集群中的主机执行启动命令通常需要通过ssh登录到其它主机,为了解决ssh 时不输入用密码的问题,在这里研究了下ssh 免密登录,操作步骤记录如下:1.免密登录原理2.生成公钥和私钥ssh-keygen -t rsa然后敲四次回车键,就会在.ssh目录下生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)然后敲四次回车键,就会在.ssh目录下生成两个文件id_rsa(私钥)、id_r...原创 2022-05-05 09:43:34 · 1374 阅读 · 1 评论 -
大数据--元数据入门
我将文章分为两大部分,第一部分介绍元数据概念,第二部分从几个方面说明元数据管理的应用,最后一部分总结一下元数据的重要性,仅代表我的一些个人观点,还请各位前辈们不要见笑。01元数据什么鬼?我入职的时候刚好赶上公司的元数据产品升级换代,同事们的研发气氛正火热,作为新入职菜鸟,总得先了解一下元数据概念,不然日后怎么和小伙伴们愉快地玩耍,于是查找国内外相关材料:一段时间之后有了一些知识积累,才发现用“关于数据的数据”来给元数据下定义确实再准确不过了,但同时也略微抽象,新人难于快速理解,待到上周...转载 2021-12-09 10:05:28 · 673 阅读 · 0 评论 -
array_contains()函数使用
一、array_contains函数:Hive中的array_contains函数与SQL中的 in关键字 操作类似,用于判定包含(array_contains)或不包含(!array_contains)关系。与in不同的是array_contains可以用于判断一张表中同一个id的多条记录中的同一字段是否包含指定的一个或多个值。需要注意字段类型保持一致,若不一致则需要进行强制类型转换。语法:array_contains(数组,值),返回布尔类型值。二,array_contains()函原创 2021-11-25 13:11:03 · 10509 阅读 · 0 评论 -
Hive中collect相关的函数有collect_list和collect_set
collect_list和collect_set它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录:create table t_visit_video ( username string, video_name string) partitioned by (day string)row format delimited fields terminate原创 2021-11-25 12:52:57 · 328 阅读 · 0 评论 -
SQL GREATEST()函数实例详解实例
SQL GREATEST()函数实例详解实例https://www.cnblogs.com/pocketbook/p/6929676.html1、语法GREATEST(expr_1, expr_2, ...expr_n)函数从表达式(列、常量、计算值)expr_1, expr_2, ... expr_n等中找出最大的数返回。在比较时,OracIe会自动按表达式的数据类型进行比较,以expr_1的数据类型为准。2、使用位置过程性语句和SQL语句3、示例示例一:数值——expr_1为转载 2021-11-22 20:53:34 · 2098 阅读 · 0 评论 -
大数据测试--etl
ETL是指:将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS中(这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。ETL三个部分中,花费时间最长的是T(清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清..原创 2021-09-21 12:39:56 · 693 阅读 · 0 评论 -
大数据测试扫盲(一)
一,什么是大数据?大数据(BigData) :指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。顺序给出所有数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 10...原创 2021-09-21 12:10:47 · 2149 阅读 · 3 评论 -
亿级系统的Redis缓存设计
缓存设计可谓老生常谈了,早些时候都是采用memcache,现在大家更多倾向使用redis,除了知晓常用的数据存储类型,结合业务场景有针对性选择,好像其他也没有什么大的难点。工程中引入Redis Client二方包,初始化一个 Bean 实例RedisTemplate,一切搞定,so easy。如果是几十、几百并发的业务场景,缓存设计可能并不需要考虑那么多,但如果是亿级的系统呢?...原创 2021-06-16 12:02:34 · 170 阅读 · 0 评论