hadoop
文章平均质量分 84
hadoop系列文章
浪尖聊大数据-浪尖
弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。
展开
-
协同过滤推荐算法在MapReduce与Spark上实现对比
MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapRedu...转载 2021-02-05 17:40:00 · 633 阅读 · 0 评论 -
针对 Hadoop 的 Oozie 工作流管理引擎的实际应用
本文操作性强,建议先收藏再仔细阅读,文章源码可以公众号后台输入1026获取。简介Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架(如图 1...转载 2018-10-18 00:06:06 · 352 阅读 · 0 评论 -
干货 | 实践Hadoop MapReduce 任务的性能翻倍之路
供稿 | 李万雪本文4600字,预计阅读时间10分钟更多干货请关注“eBay技术荟”公众号摘要:eBay的CAL(Central Application Logging)系统负责收集eB...转载 2019-12-25 23:29:23 · 393 阅读 · 0 评论 -
面试 | mr的的那些事儿
|转载自:简书|原文链接:http://www.jianshu.com/p/c97ff0ab5f49简介Apache Hadoop 是一个开源软件框架,可安装在一个商用机...转载 2018-12-30 00:16:49 · 338 阅读 · 0 评论 -
重要 | mr使用hcatalog读写hive表
企业中,由于领导们的要求,hive中有数据存储格式很多时候是会变的,比如为了优化将tsv,csv格式改为了parquet或者orcfile。那么这个时候假如是mr作业读取...原创 2018-08-16 00:00:00 · 3138 阅读 · 4 评论 -
了解GFS和HDFS后,要懂得分布式文件系统设计原理
转自:https://www.jianshu.com/p/fc0aa34606ce一、概述分布式文件系统是分布式领域的一个基础应用,其中最著名的毫无疑问是 HDFS/GFS 。如今该领域...转载 2020-11-16 22:47:35 · 353 阅读 · 0 评论 -
OLAP数仓入门:进阶篇
文章作者:温正湖 网易易数内容来源:数据库内核@知乎专栏导读:前一篇文章从OLTP出发,通过对比引出OLAP,进一步介绍了数仓的基本概念,包括多维数据模型、数据立方体及其典型操作等。本篇...转载 2020-10-14 18:42:30 · 753 阅读 · 0 评论 -
解决Spark数据倾斜(Data Skew)的N种姿势
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源...转载 2020-08-23 22:16:32 · 1374 阅读 · 0 评论 -
Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过,Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的...转载 2020-08-22 23:02:39 · 399 阅读 · 1 评论 -
HDFS的SecondaryNameNode作用,你别答错了
前言HDFS SecondaryNameNode是干什么的?这是道经典的基础面试题,笔者问过面试者很多次(当然也被面试官问过很多次)。从印象看,大约有一半的被面试者无法正确作答,给出的答...转载 2020-08-19 22:08:39 · 385 阅读 · 0 评论 -
Atlas元数据存储模型分析-重要
导语:Atlas 是一个可扩展的核心基础治理服务集 - 使企业能够有效地和高效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统的集成。该项目用于管理共享元数据、数据分级...转载 2020-06-18 00:03:39 · 1612 阅读 · 2 评论 -
HDFS卷(磁盘)选择策略
昨天,发了一篇文章,讲的是磁盘均衡的策略,浪尖是以增加大磁盘的目录数的方式,来提升大磁盘的写入概率。这其实只适合,磁盘大小不一导致的datanode节点数据写入磁盘生成的不均衡。对于有相...转载 2020-05-26 00:02:36 · 379 阅读 · 0 评论 -
Hdfs的DN节点数据磁盘大小不均衡如何处理
这是一篇历史文章,貌似16还在负责做集群的时候遇到并解决的一问题。之所以发出来是因为感觉比较实用,自从公众号迁移之后,历史文章不能搜索了,所以浪尖每隔一段时间,抽一篇比较实用的历史文章发...原创 2020-05-25 00:01:03 · 993 阅读 · 0 评论 -
基于Hadoop的58同城离线计算平台设计与实践
分享嘉宾:余意 58同城高级架构师编辑整理:史士博内容来源:58大数据系列直播出品平台:DataFun注:欢迎转载,转载请在留言区留言。导读:58离线计算平台基于 Hadoop 生态体...转载 2020-04-24 00:03:43 · 433 阅读 · 0 评论 -
Hdfs的数据磁盘大小不均衡如何处理
最近浪尖在纠结一个现在看起来很简单的问题。现象描述建集群的时候,datanode的节点数据磁盘总共是四块磁盘做矩阵成了一个7.2TB的sdb1(data1),两块通过矩阵做了一个3.6TB的sdc1(data2)磁盘,运维做的,历史原因。刚开始没有发现,然后集群过了一段时间,随着数据量的增加,发现集群有很多磁盘超过使用率90%告警,浪尖设置磁盘告警阈值是90%,超过阈值就会发短信或者微信告警,提醒原创 2018-03-13 00:00:00 · 7178 阅读 · 1 评论 -
Hadoop3.0稳定版的安装部署
号外:本公众号改名为Spark学习技巧了。Apache Hadoop 3.0.0在前一个主要发行版本(hadoop-2.x)中包含了许多重要的增强功能。这个版本通常是可用的(GA),api稳定性和质量已经到了可以再生成中使用的步骤。一 概览1,java8是必须所有hadoop 的jar都是利用java8的运行时版本进行编译的。依然在使用java7或者更低版本转载 2017-12-15 00:00:00 · 15266 阅读 · 0 评论