数据治理
文章平均质量分 90
飞越石之海
这个作者很懒,什么都没留下…
展开
-
kafka实战报错解决问题
在一个在线商城中,用户下单后需要进行订单的处理。为了提高订单处理的效率和可靠性,我们使用Kafka来实现订单消息的异步处理。当用户下单后,订单信息会被发送到Kafka的一个Topic中,然后订单处理系统会从该Topic中消费订单消息,进行订单处理。模拟数据以下是一条模拟订单数据的JSON格式:我们可以根据这个格式生成100条模拟数据,并发送到Kafka的order_topic中进行订单处理。要求:1) 将模拟数据发送到kafka消息队列中。原创 2023-09-09 16:27:34 · 844 阅读 · 0 评论 -
datax工具介绍及简单使用
Datax是一个异构数据源离线同步工具,致力于实现包括关系数据库、HDFS、Hive、ODPS、Hbase等各种异构数据源之间稳定高效的数据同步功能为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步;DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已 持续稳定运行了7年之久。原创 2023-09-09 16:02:28 · 1043 阅读 · 0 评论 -
简单了解Sqoop
sqoop是一款开源工具,主要运用在Hadoop(Hive)与传统的数据库(mysql\postgresql等)间进行数据的传递;它最早是作为hadoop的一个第三方模块存在,后来为了让使用者能快速部署以及迭代开发,最后独立成为Apache项目;依赖于hadoop,数据并行写入;传递类型分为两种:1)import——MySQL导入到HDFS中;2)export——将HDFS的数据导出到关系型数据库中;原创 2023-09-04 08:53:17 · 340 阅读 · 0 评论 -
Hive调优(SQL)
hive 0.7 的时候这个计算是自动化的,它首先会自动判断哪个是小表,哪个是大表,这个参数由(hive.auto.convert.join=true)来控制,然后控制小表的大小由(hive.smalltable.filesize=25000000)参数控制(默认是25M),当小表超过这个大小,hive会默认转化成common join;影响Hive效率的不仅仅是数据量过大;第一个job会将map端数据随机输入reducer,每个reducer做部分聚合,相同的key就会分布在不同的reducer中;原创 2023-08-24 20:56:40 · 268 阅读 · 0 评论 -
Hive中的DQL操作
当 Hive 提供的内置函数无法满足实际的业务处理需要时,可以考虑使用用户自定义函数进行扩展;分类用户自定义函数,一进一出用户自定义聚集函数,多进一出;类似于count/max/min用户自定义表生成函数,一进多出;类似于:explodeUDF开发继承org.apache.hadoop.hive.ql.exec.UDF;需要实现evaluate函数;evaluate函数支持重载;UDF必须要有返回类型,可以返回null,但是返回类型不能为void;UDF开发步骤。原创 2023-08-24 20:56:12 · 98 阅读 · 0 评论 -
hive中的DDL操作以及数据的导入导出
DDL(data definition language),命令有CREATE、ALTER、DROP等。主要用在定义、修改数据库对象的结构或数据类型;原创 2023-08-24 20:55:49 · 173 阅读 · 0 评论 -
Hive中的数据类型
简单示例MAP嵌套ARRAY,手动设置集合格式的数据非常麻烦,建议采用INSERT INTO SELECT 形式构造数据再插入UNION表。格式为yyyy-MM-dd HH:mm:ss.fffffffff,即最多支持纳秒级,如果长度超出,则会变成NULL;STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套;只支持这种格式,其余格式是错误的,变为NULL;和基本数据类型一样,这些类型的名称同样是保留字;VARCHAR创建时需。,影响字符串的比较;原创 2023-08-24 20:54:53 · 1422 阅读 · 0 评论 -
简述hive环境搭建
Hive中元数据默认存在自带的derby的数据库中,而derby单进程,单用户,仅用户个人测试,生产环境采用MySQL存储Hive元数据。set > -hiveconf > hive-site.xml > hive-default.xml(系统)注意:启动Hive时,可以在命令行添加 -hiveconf param=value 来设定参数,这些设定。其中hive-default.xml移除后缀后,需要修改名为hive-site.xml。2)启动hive时指定参数(-hiveconf)原创 2023-08-24 20:54:35 · 113 阅读 · 0 评论 -
简单了解Hive
使用hive的原因是解决使用mapreduce的三个问题MapReduce 开发难度大,学习成本高(wordCount => Hello World)Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理使用MapReduce框架开发,项目周期长,成本高Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表(类似于RDBMS中的表),并提供类SQL查询功能;Hive是由Facebook开源,用于解决海量结构化日志的数据统计;本质是。原创 2023-08-24 20:54:19 · 62 阅读 · 0 评论 -
HDFS与传统的文件系统的不同
它将大文件切分为多个数据块,并分散存储在不同的服务器上,以实现高吞吐量和并行处理能力。:HDFS采用了数据冗余机制,将数据块复制到不同的服务器上,保证了数据的可靠性。当某个服务器发生故障时,系统可以自动从其他副本中恢复数据,确保数据的可用性。它将数据块存储在就近的服务器上,并利用网络拓扑结构来减少数据传输的距离,从而实现快速的数据访问。总的来说,HDFS通过可扩展性、容错性和高效的数据访问等特点,使得它成为处理大数据的理想选择,并在大数据领域得到广泛应用。:与传统文件系统不同,HDFS不支持随机写入操作。原创 2023-08-18 17:39:55 · 930 阅读 · 0 评论 -
Yarn资源调度
Yarn是一个资源调度平台,负责为MapReduce运算程序提供服务器运算资源,如果把MapReduce等运算程序看成运行在操作系统上的应用程序,而Yarn相当于一个分布式的操作系统平台;组成结构如图所示处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。原创 2023-08-11 16:46:12 · 70 阅读 · 0 评论 -
HDFS分布式文件系统
HDFS是hadoop核心组成,是一种分布式存储服务;选择分布式的原因是分布式文件系统横跨2多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力;而且,HDFS通过统一的命名空间目录树来定位文件;另外,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色(分布式本质是拆分,各司其职)。在讲解架构之前先要了解一些重要的概念(1)Master/Slave架构。原创 2023-08-09 16:23:07 · 88 阅读 · 0 评论 -
MapReduce编程框架
mapreduce是一个分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式计算程序,并发运行在hadoop集群中。它主要分为两个阶段,“分”和“合”阶段。(1)“分”阶段=map,即把复杂的任务分解为若干个“简单的任务”,这些任务彼此间没有依赖关系;(2)“合”阶段=reduce,对map阶段得结果进行全局汇总;原创 2023-08-09 16:20:13 · 90 阅读 · 0 评论 -
hadoop组成及环境搭建
简单地说,集群就是指一组(若干个)相互独立的计算机,利用高速通信网络组成的一个较大的计算机服务系统,每个集群节点(即集群中的每台计算机)都是运行各自服务的独立服务器。其实很简单,先向NameNode请求获取到之前存入文件的块以及块所在的datanode的信息,分别下载并最终合并,就可以得到之前的文件。==注意:==如果集群是第一次启动,需要在NameNode所在节点格式化NameNode,非第一次不用执行格式化Namenode操作!具体搭建过程就不阐述了,这里主要介绍集群的启动;原创 2023-08-08 15:48:56 · 40 阅读 · 0 评论 -
Hadoop简单介绍
在介绍Hadoop之前,我们先了解大数据的相关概念;大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。那么总结出来有五个特点:(1)大量-volume在数据采集、存储和计算的过程中,数据量非常大。通过计算机存储单位来举例基于IDC的报告预测,从2013年到2020年,全球数据量会从4.4ZB猛增到44ZB!原创 2023-08-05 13:28:04 · 180 阅读 · 0 评论 -
数据治理理论
数据治理的标准也分国内和国外。国外的有DAMA International 国际数据管理协会;国内的标准有DCMM模型。治理的大概流程图如下所示。原创 2023-07-28 17:20:15 · 248 阅读 · 0 评论 -
Linux概述及命令使用
Linux操作系统可以追溯到1969年,Unix是较早被广泛使用的计算机系统之一,第一版于1969年由肯汤普森实现,1973年肯汤普森和丹尼斯里奇用c语言重写了unix的第三版内核。Unix是个强大的多用户、多任务操作系统Unix的商标权由国际开放标准组织所拥有Unix操作系统商业版,收费继承了Unix的版本定制规则。原创 2023-07-18 17:30:24 · 64 阅读 · 0 评论