![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 74
csdn-延
好记性不如个烂笔头
展开
-
Hadoop大数据平台数据迁移方案(跨集群)
保证数据必须TextFile文件格式(Orc等压缩文件格无用),可以将压缩表数据插入非压缩表中insert ****** select ******]上述命令会把nn1集群的/source目录下的所有文件或目录展开并存储到一个临时文件中,这些文件内容的拷贝工作被分配给多个map任务,[服务器2]创建Hive外表,其中外表的(location)地址远程指向迁移地址[服务器1]数据的(location)地址,在我们的Hive中创建Hive外部引用表,将引用路径指向需要迁移的服务器地址。转载 2023-08-15 22:12:49 · 682 阅读 · 0 评论 -
mongo-hadoop集成
当hadoop集群需要借助mongodb的数据进行辅助分析时,为了快速实施我们需要将hive集成mongodb1. 下载jar包,放到hive节点的第三方包/etc/hive/auxlib目录下(这个目录通过hive hive.aux.jars.path属性配置)wgethttps://repo1.maven.org/maven2/org/mongodb/mongo-hadoop/mongo-hadoop-core/2.0.2/mongo-hadoop-core-2.0.2.jar;w..原创 2022-04-05 00:04:35 · 2189 阅读 · 0 评论 -
Hive执行报错CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock
报错日志如下:Caused by: org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock{BP-438308737--1615993069368:blk_1073893685_152906; getBlockSize()=949; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[:9866,DS原创 2022-03-28 11:12:44 · 784 阅读 · 0 评论 -
数仓|该如何理解数据仓库的建设
什么是数据仓库数据仓库,最早由比尔·恩门(Bill Inmon)于1990年提出,主要功能是将组织或企业里面的联机事务处理(OLTP)所累积的大量数据,透过数据仓库理论所特有的储存架构,进行系统的分析整理,以利于各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)的进行,并进而支持如决策支持系统(DSS)、主管信息系统(EIS)的创建, 帮助决策者能快速有效的从大量数据中分析出有价值的信息。目前, 被广泛接受的数据仓库的定义是由Bill Inmon在1991年出版的 "Buil转载 2022-03-27 16:29:21 · 240 阅读 · 0 评论 -
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析
写在前面层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面: 数据 什么是大数据 数据分析与数据挖掘的区别是什么 数据库 什么是数据库 数据库中的分布式事务理论 数据仓库 什么是数据仓库 什么是数据集市 数据库与数据仓库的区别是什么转载 2022-03-27 16:27:15 · 1460 阅读 · 0 评论 -
数仓|COUNT DISTINCT数据倾斜优化
什么是数据倾斜数据倾斜,在MapReduce编程模型中十分常见,就是大量的相同key被分配到一个分区里,造成了个别task运行的非常慢,从而影响了整个任务的执行效率。数据倾斜产生的根本原因是少数Worker处理的数据量远远超过其他Worker处理的数据量,因此少数Worker的运行时长远远超过其他Worker的平均运行时长,导致整个任务运行时间超长,造成任务延迟。数据倾斜的原因当我们看任务进度长时间维持在99%(或100%),查看任务监控页面就会发现只有少量(1个或几个)reduce子任务未转载 2022-03-27 16:23:58 · 1370 阅读 · 0 评论 -
数仓|Kimball的维度建模过时了吗?
从20世纪80年代中期以来,kimball一直是数据仓库和商业智能行业维度建模方法的思想开拓者。维度建模之初假设数据仓库仅限于单服务器数据库,随着大数据时代的到来,分布式计算和分式存储成为了新的趋势,所以Ralph Kimball所普及的维度数据建模方法和技术需要一些修订,这样才能更好地满足大数据建模的需求。需要注意的是,在数据仓库领域, Inmon和Kimball是两大主要阵营,但是Kimball的维度建模理论对于现代数仓建设的影响可谓是非常深远的,所以本文主要讨论维度建模的相关问题。不要使用代理键转载 2022-03-27 16:21:54 · 203 阅读 · 0 评论 -
CDH集群之YARN性能调优
本文主要讨论CDH集群的YARN调优配置,关于YARN的调优配置,主要关注CPU和内存的调优,其中CPU是指物理CPU个数乘以CPU核数,即Vcores = CPU数量*CPU核数。YARN是以container容器的形式封装资源的,task在container内部执行。集群配置集群的配置主要包括三步,第一是先规划集群的工作主机以及每台主机的配置,第二是规划每台主机的安装的组件及其资源分配,第三是规划集群的规模大小。工作主机的配置如下表所示:主机的内存为256G,4个6核CPU,CPU支持超转载 2022-03-27 16:18:04 · 691 阅读 · 0 评论 -
数仓|长周期去重指标的计算优化
在电商数据仓库和商业分析场景中,经常需要计算最近N天的UV、成交用户数等类似的指标,这些指标都有两个共同的特点 去重,在时间窗口范围内,一个用户多次访问或者购买,只统计一次 时间窗口,这些指标需要根据一段时间内的累积数据进行计算 通常情况下,这些指标的计算逻辑并不复杂,可以从日志明细表中查询数据进行计算。例如,运行如下SQL语句计算商品最近30天的访客数。SELECTsku_code--商品id,COUNT(DISTINCTuser_i...转载 2022-03-27 16:08:47 · 439 阅读 · 0 评论 -
面试|深入理解YARN的内部架构
引言Apache YARN(Yet Another Resource Negotiator)是 Hadoop 的集群资源管理器。Yarn 是在 Hadoop 2.x 中引入的。Yarn 允许不同的数据处理引擎,如图形处理、交互处理、流处理以及批处理来运行和处理存储在 HDFS(Hadoop 分布式文件系统)中的数据。其实,YARN不仅负责资源分配,而且也会负责作业的调度。MapReduce1.0既是一个计算框架,也是一个资源管理调度框架。到了Hadoop2.0以后,MapReduce1.0中的转载 2022-03-27 16:00:27 · 634 阅读 · 0 评论 -
看完,你就理解什么是数据的全量、增量、差异备份了
在很远很远的地方,有一个帐房先生。他每天要记很多很多的账单。老先生一生谨慎,为了保证账本的安全,便找来三个徒弟帮忙来对账本做备份,这样即使账本丢失了,也可以用备份的账本继续使用。三个徒弟各有所长,分别采用了不同的做法:大徒弟▼性格宅心仁厚,成熟稳重。他采用的方式是每天都把师父的账单重新抄录一份。这样做的好处就是每天都是一份完整的账本,每一个备份的账本都可以直接使用,坏处则是每天要花费很多时间去进行记录,并且需要很多纸、墨水以及存账本的柜子。二徒转载 2022-02-20 23:30:38 · 236 阅读 · 0 评论 -
CDH集群各组件配置
cdh配置、大数据组件配置yarn、flume、spark、hive、hue等原创 2022-01-03 11:03:05 · 1589 阅读 · 0 评论 -
Hadoop 生态里,为什么 Hive 活下来了?
Apache Hive 能在下一轮“淘汰”中幸存下来吗?Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角,当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务:一是查询引擎:负责执行 SQL 语句;二是元存储:负责在 HDFS 中将数据收集虚拟化为表。HDFS 上的 Hive 的主要组成部分,包括用户界面、驱动程序和元存储。Hadoop 背后的概念是革命的。分布式文件系翻译 2021-12-08 00:26:05 · 228 阅读 · 0 评论 -
大数据平台数据处理之Lambda架构和Kappa架构
首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。数据采集将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop,日志同步可以选择转载 2021-08-15 23:42:50 · 2737 阅读 · 0 评论 -
kafka利用命令查看consumer消费情况
旧版本( <= 0.9)./kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group bigdata --topic data-center --zookeeper zk:2181或者/kafka-consumer-offset-checker.sh --group bigdata --topic data-center --zookeeper zk:2181新版本( > 0.9)./kafka-cons.原创 2020-11-20 22:41:38 · 4099 阅读 · 0 评论 -
从生日请客到HDFS工作原理解析
来自:互联网侦察小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了。对小史面试情况感兴趣的同学可以观看面试现场系列。今天是小史生日,为了庆祝自己今年喜提A厂offer,小史叫了二十多个人一起庆生,吕老师、小史姐姐、小林都去啦。到了吃午饭的时间,他们一起去了一家精致的茶餐厅,四人一桌,坐了六桌。...转载 2020-04-17 02:53:39 · 292 阅读 · 0 评论 -
FastDFS与Hdfs的区别
主要是定位和应用场合不一样。hadoop的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大,采用了分块(切分)存储的方式;FastDFS主要用于大中网站,为小文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持得比较好,FastDFS不会对文件进行分快(切分)存储。其它文章: HDFS和FastDFS的上传、下载效率对比测试......原创 2020-04-07 00:37:42 · 7611 阅读 · 0 评论 -
大数据和新零售
新零售,就是以消费者体验为中心的数据驱动的泛零售形态,依托大数据技术,使得零售商获得大量用户的精准数据,驱动“人”、“货”、“场”三者关系的重构。在《让人、货、场重构的新零售是什么?》这篇文章中,我们已经简单的给大家说明了什么叫做“人”、“货”、“场”三者关系的重构,今天我们就来讨论讨论,大数据在新零售领域中的作用。 大数据一词,想必大家已经习以为常了,但你...原创 2020-04-07 00:19:54 · 1685 阅读 · 1 评论 -
Hive操作指南
一. 建外部表create external table test.test_external( id int comment '测试id' , name string comment '测试名称' ) comment '测试'row format delimited...原创 2020-03-31 00:22:14 · 355 阅读 · 0 评论 -
数据仓库的四个层次设计
数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。1.数据仓库的四个操作 ETL(extractiontransformation loading)负责将分散...转载 2019-06-04 16:05:03 · 17266 阅读 · 0 评论 -
数据仓库——阿里五层模型架构
目录1. ODS 数据准备层2. DWD 数据明细层3. DW(B/S) 数据汇总层4. DM 数据集市层5. ST 数据应用层解码OneData,阿里的数仓之路1. ODS 数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清...转载 2019-06-04 15:09:15 · 15402 阅读 · 3 评论 -
大数据技术整理
目录一. HadoopHadoopYarnMapReduceHdfsCDH|Cloudera Manager二. 数据分析HiveImpala三. 离线和实时数据处理FlinkSparkStormKafka四. OLAP分析平台Kylin五. 日志数据采集工具FlumeELK(Elasticsearch、Log...原创 2019-06-04 10:04:53 · 262 阅读 · 0 评论 -
数据仓库的架构与设计
公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计 1. 什么是数据仓库1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数...转载 2019-06-03 16:35:23 · 186 阅读 · 0 评论 -
批处理和流处理
目录Apache Storm Apache SamzaApache SparkApache Flink 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介绍大...转载 2019-04-22 14:54:18 · 1718 阅读 · 0 评论