大数据
文章平均质量分 77
白鸽呀
这个作者很懒,什么都没留下…
展开
-
Kafka详细教程(一)
官网:「http://kafka.apache.org/」 kafka 是最初由 linkedin 公司开发的,使用 scala 语言编写, kafka 是一个分布式,分区的,多副本的,多订阅者的日 志系统(分布式MQ 系统),可以用于搜索日志,监控日志,访问日志等 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于 JMS 的特性,但是在设计实现上完全不同,此外它并不是JMS 规范的完整实现。原创 2024-03-27 19:55:12 · 2054 阅读 · 0 评论 -
Hadoop之Yarn 详细教程
YARN 是 Hadoop2 引入的通用的资源管理和任务调度的平台,可以在 YARN 上运行MapReduce、Tez、Spark 等多种计算框架,只要计算框架实现了 YARN 所定义的接口,都可以运行在这套通用的 Hadoop 资源管理和任务调度平台上。支持多种计算框架YARN 是通用的资源管理和任务调度平台,只要实现了 YARN 的接口的计算框架都可以运行在 YARN 上。资源利用率高多种计算框架可以共用一套集群资源,让资源充分利用起来,提高了利用率。运维成本低。原创 2023-12-29 11:55:55 · 2212 阅读 · 0 评论 -
Hadoop之MapReduce 详细教程
为了开发我们的 MapReduce 程序,一共可以分为以上八个步骤,其中每个步骤都是一个 class 类,我们通过 job 对象将我们的程序组装成一个任务提交即可。为了简化我们的 MapReduce 程序的开发,每一个步骤的 class 类,都有一个既定的父类,让我们直接继承即可,因此可以大大简化我们的 MapReduce 程序的开发难度,也可以让我们快速的实现功能开发。MapReduce 编程当中,其中最重要的两个步骤就是我们的 Mapper 类和 Reducer类Mapper 抽象类的基本介绍。原创 2023-12-28 16:57:21 · 1869 阅读 · 0 评论 -
Hadoop之HDFS 详细教程
Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是 HDFS(分布式文件系统)以及 LocalFileSystem(本地文件系统)了。在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。HDFS(Hadoop Distributed File System)是 Hadoop 项目的一个子项目。原创 2023-12-27 18:13:41 · 4835 阅读 · 0 评论 -
Apache atlas 元数据管理治理平台使用和架构
Apache Atlas 是托管于 Apache 旗下的一款元数据管理和治理的产品,目前在大数据领域应用颇为广泛,可以很好的帮助企业管理数据资产,并对这些资产进行分类和治理,为数据分析,数据治理提供高质量的元数据信息。随着企业业务量的逐渐膨胀,数据日益增多,不同业务线的数据可能在多种类型的数据库中存储,最终汇集到企业的数据仓库中进行整合分析,这个时候如果想要追踪数据来源,理清数据之间的关系将会是一件异常头疼的事情,倘若某个环节出了问题,追溯的成本将是巨大的,于是 Atlas 在这种背景下应运而生了,通过它,原创 2023-10-12 11:50:30 · 5352 阅读 · 2 评论 -
Mapreduce执行机制之Map和Reduce
1、Mapper 类 * Maps input key/value pairs to a set of intermediate key/value pairs. * * <p>Maps are the individual tasks which transform input records into a * intermediate records. The transformed intermediate records need not be of * the sa原创 2021-11-11 15:19:13 · 1859 阅读 · 0 评论 -
Mapreduce执行机制之提交任务和切片原理
1、Mapper 类 * Maps input key/value pairs to a set of intermediate key/value pairs. * * <p>Maps are the individual tasks which transform input records into a * intermediate records. The transformed intermediate records need not be of * the sa原创 2021-11-10 20:33:38 · 1482 阅读 · 0 评论 -
HDFS执行机制之Write
此时,我们的packet已经进入了dataQueue, 而DataStreamer的run(),就算等待着dataQueue的数据,DataStreamer拿取到数据之后,将数据发送给DataNote原创 2021-11-08 16:25:44 · 447 阅读 · 0 评论 -
HDFS执行机制之Create
核心对象:1、FileSystem类首先,我们翻译一下FileSystem类的文档,从宏观上把控这个类:An abstract base class for a fairly generic filesystem. Itmay be implemented as a distributed filesystem, or as a "local"one that reflects the locally-connected disk. The local versionexists for原创 2021-11-08 15:42:57 · 1490 阅读 · 1 评论 -
什么是拉链表
在数据仓库的数据模型设计过程中,经常会遇到这样的需求:数据量比较大;表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等;变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;拉链历史表,既能满足反转载 2021-10-25 18:24:11 · 117 阅读 · 0 评论 -
数据仓库系列之ETL中常见的增量抽取方式
为了实现数据仓库中的更加高效的数据处理,今天来探讨ETL系统中的增量抽取方式。增量抽取是数据仓库ETL(数据的抽取(extraction)、转换(transformation)和装载(loading))实施过程中需要重点考虑的问题。ETL抽取数据的过程中,增量抽取的效率和可行性是决定ETL实施成败的关键问题之一,做过数据建模的小伙伴都知道ETL中的增量更新机制比较复杂,采用何种机制往往取决于源数据系统的类型以及对增量更新性能的要求。今天我们只重点对各种方法进行对比分析,从而总结各种机制的使用条件和优劣性转载 2021-10-25 18:21:38 · 3116 阅读 · 0 评论 -
启动HDFS时报错ERROR: Attempting to operate on hdfs namenode as root
企图用root用户,在hdfs的 namenode中进行操作,但是呢,HDFS_NAMENODE_USER 相关没有定义。网上查询了一下,大概就是我们用root用户操作,没有在环境变量中定义变量。那么定义好了。解决:方式一1、编辑环境变量,添加定义变量vim /etc/profile# 文件中添加以下内容export HDFS_NAMENODE_USER=rootexport HDFS_DATANODE_USER=rootexport HDFS_SECONDARYNAMENODE_.原创 2021-10-25 17:27:39 · 1070 阅读 · 0 评论 -
Hadoop3.2.2安装 windows版
1、下载安装包https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz2、下载windows下使用hadoop需要的工具 winutils.exe 和 hadoop.dllhttps://github.com/cdarlint/winutils/tree/master/hadoop-3.2.2/bin放入hadoop bin 目录下即可3、配置环境变量4、配置 配置文件原创 2021-10-07 16:02:17 · 6854 阅读 · 7 评论 -
Windows运行Hadoop时报错:Could not locate executablenull\bin\winutils.exe in the Hadoop binaries
Windows运行Hadoop时报错:Could not locate executable null\bin\winutils.exe in the Hadoop binaries从标题报错中就可以看到,不能定位到winutils.exe,在hadoop中这个错误一般是windos下运行报错的,linux下不需要winnutils.exe,hadoop.dll解决: 只需要下载对应的winnutils.exe 文件,hadoop.dll 文件 放进hadoop bin目录下即可,除此之外,还需要配原创 2021-10-07 15:36:34 · 1595 阅读 · 1 评论 -
数据平台的4个阶段:从数据库到数仓再到中台,超详细的架构全解
在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀出一个完整的智能化平台。数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用,强调技术对于业务的推动作用,但在转载 2021-09-27 21:25:36 · 2060 阅读 · 0 评论 -
数据库和数据仓的本质区别
数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。我尝试着再补充些具体的事例来说明,这样更可以帮助大家更好理解一些。举个最常见的例子,拿电商行业来说好了。基本每家电商公司都会经历,从只需要业务数据库到要数据仓库的阶段。电商早期启动非常容易,入行门槛低。找个外包团队,做了一个可以下单的网页前端 + 几台转载 2021-09-17 09:44:17 · 260 阅读 · 0 评论 -
[数据仓库]分层概念,ODS,DM,DWD,DWS,DIM的概念
一. 各种名词解释1.1 ODS是什么?ODS层最好理解,基本上就是数据从源表拉过来,进行etl,比如mysql 映射到hive,那么到了hive里面就是ods层。ODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。但是,这一层面的数据却不等同于原始数据。在源数据装入这一层转载 2021-09-17 17:18:28 · 10952 阅读 · 0 评论