极伪-CSDN博客

原创 FSImage并行加载以及对HDFS OIV的影响

FSImage并行加载关于NameNode FSImage并行加载现在有很多文章都详细介绍过，比如：https://blog.csdn.net/Androidlushangderen/article/details/100088073，所以这里就不大篇幅说了简单总结就是开启该功能后，FSImage文件里的FILESUMMARY将会添加INODE_SUB和INODE_DIR_SUB两类SECTION的索引，将INODE和INODE_DIR两个Section进行逻辑拆分，以实现并行加载。并行加载FSIma

2022-04-02 16:24:41 2968

原创 CapacityScheduler优化patch调研

之前看了LinkedIn的一篇Hadoop Yarn文章：https://engineering.linkedin.com/blog/2021/scaling-linkedin-s-hadoop-yarn-cluster-beyond-10-000-nodes感觉写的很好，里面提到了两种优化CapacityScheduler调度效率的场景，这里提出来总结一下一、修改队列调度排序场景CapacityScheduler默认根据利用率对队列进行排序，并首先将 containers 分配给利用率最低的队列。

2022-04-02 15:54:17 2603

原创 Could not find uri with key [dfs.encryption.key.provider.uri] to create a keyProvider

背景作业可能会出现以下报错ERROR org.apache.hadoop.hdfs.KeyProviderCache - Could not find uri with key [dfs.encryption.key.provider.uri] to create a keyProvider !!这个报错是hdfs客户端的一个bug，但并不影响作业正常运行，且在2.8版本之后已经修复相关代码DistributedFileSystem.java在这里调用getKeyProvider方法 p

2022-01-09 19:39:32 4243

原创 Hadoop单元测试编译报错

使用 mvn test 运行hadoop单元测试时，出现以下报错 [exec] ok 1 hadoop_add_classpath (simple not exist) [exec] ok 2 hadoop_add_classpath (simple wildcard not exist) [exec] ok 3 hadoop_add_classpath (simple exist) [exec] ok 4 hadoop_add_classpath (simple w

2022-01-09 19:25:48 974

原创 Yarn 3.x版本容器内存控制功能失效排查

问题背景Yarn集群中一部分节点的内存被打爆，排查发现作业使用内存超出了NodeManager的最大内存限制找出故障时间点运行的作业，发现作业内存设置不合理，用户只设置了mapreduce.map.java.opts=-Xmx40240m;mapreduce.reduce.java.opts=-Xmx80240m;而没有设置mapreduce.map.memory.mb（默认为1536）mapreduce.reduce.memory.mb（默认为3072）mapreduce.map.me

2021-11-28 14:10:18 27139

原创网易游戏FairScheduler迁移CapacityScheduler实践

一、背景我们的海外集群上线spot动态节点后，由于动态节点不定期会被回收，为了保证作业运行稳定性，需要指定某些重点作业运行在固定节点，而这需要使用到CapacityScheduler的NodeLabel功能。虽然社区也有FairScheduler支持NodeLabel的patch（YARN-2497），但并不成熟，不适合在生产环境使用。此外，目前社区的开发重点也偏向CapacityScheduler，随着版本的更新，它对于调度吞吐量做了众多改进，比如多线程调度、细粒度锁等。经过讨论后，我们决定将目前使用

2021-11-28 13:56:36 3912

原创 Hadoop Yarn作业调度本地性源码分析

1、Yarn的调度本地性是指将作业分配到数据所在节点，可以减少很多网络IO，对MR作业来说，只有map task有本地性需求，reduce task和failed map task都没有本地性需求2、Yarn的调度本地性是通过延迟调度来满足的，本地性有3个级别：节点本地、机架本地和随意调度，当调度不能满足本地性时，调度器会计算错过的调度机会数量，并等待该计数达到阈值，然后将本地性约束放宽到下一个级别3、为了调度到满足数据本地性的节点，可以错过一定数量的调度机会，这个错过机会数量的阈值由以下参数控制：F

2021-10-12 17:14:34 571

原创 debian安装nginx报错：Package nginx-full is not configured yet.

执行sudo apt install nginx安装nginx时报错：Setting up nginx-full (1.10.3-1+deb9u7) ...[FAIL] Starting nginx: nginx failed!invoke-rc.d: initscript nginx, action "start" failed.dpkg: error processing package nginx-full (--configure): subprocess installed post-i

2021-09-23 12:32:46 1011

原创 HDFS慢节点监控原理源码分析

背景HDFS集群规模日益扩大之后，集群中难免会出现一些“慢节点“，主要表现为网络数据传输变慢、磁盘读写变慢。平常这些慢节点很难被发现，只有当业务作业数据读写涉及到这些节点，导致作业运行时间延长，我们才会发现集群读写变慢了，进而去定位具体变慢的节点。所以慢节点一直是HDFS集群运维中需重点关注的问题，在Hadoop2.9之后，社区支持了从Namenode jmx上查看慢节点的功能。metrics格式如下，需要注意的是这里最多展示Top5个节点/磁盘："SlowPeersReport":[{"SlowN

2021-08-29 11:30:47 3469 1

原创大数据开发如何入门？大厂程序员分享一下我的学习路线

相信近几年大家也都感受到了计算机行业的火爆，越来越多的同学选择报考计算机专业，甚至很多非计算机专业的同学也一直想要转行当程序员。在这样的环境下，公司对程序员的要求也是水涨船高，几年前校招的同学，想找一份JAVA开发的工作，可能只需要会一些Java Web基础，再加spring框架，写几个毕设水平的小项目就行了。而现在，算法、微服务、分布式、高并发，很多工作中可能都遇不上的场景，也都要考察。现在JAVA开发程序员已经卷成这样，不如来看看另一条路：大数据开发。首先介绍一下我的情况，我大学专业是信息安全，毕

2021-05-16 18:36:53 1627 7

原创 Java api读取kerberos模式HDFS

maven依赖  <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> &

2021-04-16 17:46:21 286 1

原创 datanode日志连接被对方重设/断开的管道

背景datanode日志中经常发现大量以下报错：2021-04-07 14:59:35,131 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: BlockSender.sendChunks() exception:java.io.IOException: 连接被对方重设 at sun.nio.ch.FileChannelImpl.transferTo0(Native Method) at sun.nio.ch.FileCha

2021-04-07 17:37:00 3300 2

原创 Debian/Ubuntu编译多版本Hadoop及踩坑

最近在搭建Jenkins+Git的CI/CD流程，公司用到了Hadoop的好几个版本，2.6.0、3.2.1、3.3.0，这三个版本对编译环境的要求都有不同，所以以下是我在一台机器搭建三个版本的Hadoop编译环境的过程。hadoop3.3 Requirements首先看BUILDING.txt（https://github.com/apache/hadoop/blob/trunk/BUILDING.txt），这里先以3.3版本为准Requirements:Unix SystemJDK 1.8

2021-01-30 16:05:01 863

原创 HDFS副本放置策略源码分析

背景前段时间我们的集群在写入block时有如下报错：Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /tmp/xxxx.tmp could only be replicated to 0 nodes instead of minReplication (=1). There are 983 dat

2021-01-30 15:02:59 657

原创没有项目，没有实习，没有竞赛，计算机专业同学如何准备校招

又到一年一度的国庆假期了，回想两年前的这个时候，我还在寝室里紧张地准备我的校招项目，都参加了好几场面试了，项目还有一些功能模块没有完成，所以整个国庆假期的时间都花在这上面了。索性之后也没有辜负我的努力，拿到了好几个offer，顺利结束了我的秋招。这篇文章想和大家分享一下，一个最普通的计算机专业学生，没有竞赛成绩，没有实习经历，没有项目经验，成绩也普通，要如何准备校招，收获一份满意的offer。首先我的专业是信息安全，但我要找一份Java开发的岗位，这其实算是小跨行了，Java这门课我只在大三上过一学期，

2020-10-06 14:49:40 11211 11

原创计算机专业到底要不要考研？211毕业程序员工作一年后谈谈我的看法

上一篇文章中我回顾了我的大学生活，和大部分人一样，我在大三时候面临了考研or工作的选择，一开始我稀里糊涂打算考研，甚至复习了一个学期的高数，但后来我放弃了这个想法，参加了大四的秋招，工作一年后，我成功跳槽进入网易。这篇文章里，我打算以我的亲身经历来讲讲计算机专业的学生到底要不要考研，大三的时候我很想知道到底是直接工作好还是考研好，我逛了很多论坛，搜索了很多问答，最后发现，这个问题其实无法给出一个通用的准确的答案，只能根据每个人自身条件来判断。所以先说一下我主观总结的几条建议：1、能够保研建议直接读研

2020-09-19 17:55:41 22940 2

原创从大一时成绩倒数，到毕业后入职网易，回顾一路走来的艰辛

马上又到了开学季了，如果把时光倒回到五年前，这个时候的我正收拾行囊，离开生活了十几年的家乡，怀着忐忑又憧憬的心，即将步入新的大学生活。而现在的我，已经毕业经历了一年的工作打拼，并在上个月成功跳槽到了网易。回想起这一路走来的经历，从刚上大学时的放飞自我，挂科倒数，到后来没日没夜的恶补学习，写代码写到头晕反胃，最后终于天道酬勤，取得一些小成果，我感觉有必要做一个回顾总结，同时也稍微放松一下一直以来紧绷的神经。大一浑噩的一年经历了高考的人应该都有相同的感受，从那样的压力下解脱出来，大部分人都很难继续对学习

2020-09-06 12:55:44 3572 2

原创一年经验大数据开发网易游戏社招面经(已拿offer)

先说一下背景，我是19年毕业的一所普通211的本科生，在国企工作一年，感觉技术进入瓶颈，就想跳槽了。不得不说今年行情确实很差，加上我工作年限太短了，投了一个多月的简历才拿到一个网易游戏的面试机会，所以劝各位想换工作的话最好还是别裸辞。话不多说，网易面试一共两轮技术面+一轮HR面：一面（技术面：1个小时）自我介绍数仓整条链路具体负责哪块团队多少人Flume具体配置Flume到Kafka的一次性Kafka的exactly once如何保证Kafka下游消费速度比不上生产速度怎么办讲一下Spar

2020-08-08 16:21:32 4104 5

原创 ElasticSearch7.0 Java High Level Client使用教程（三：聚合查询）

前两篇介绍了es的简单条件查询，本文将在条件查询的基础上添加聚合条件进行查询，聚合查询很大的不同是在查询结果的解析上。首先看一下这条dsl查询语句：GET test*/_search{ "size": 0, "timeout": "60s", "query": { "bool": { "must": [ { "terms": { "server_name.keyword": [ "w

2020-06-05 16:20:13 1307

原创 ElasticSearch7.0 Java High Level Client使用教程（二：Scroll滚动查询）

上一篇里演示了ES简单的条件查询，值得注意的是，因为ES的深分页问题，单次查询最多只能返回10000条数据，

2020-05-28 17:00:18 2515

原创 ElasticSearch7.0 Java High Level Client使用教程（一：简单查询）

本文将演示如何使用ES提供的Java高级包来查询数据，首先API其实就是在底层构建一条DSL查询语句，所以我们首先看一下这条语句:GET test*/_search{ "timeout": "60s", "query": { "bool": { "must": [ { "terms": { "status.keyword": [ "301", "302"

2020-05-21 14:44:36 1607 1

原创 filebeat和flume写入kafka后数据格式的不同

filebeat和flume都是当下非常流行的日志采集工具，flume功能更强，使用范围也更广，而filebeat相比flume更加轻量，一般跟ELK一起使用。笔者在使用这两个工具对接kafka的过程中发现他们采集到kafka里的数据格式是不同的，这里我使用spark streaming分别消费出几条数据对比一下：spark streaming程序：def run():Unit={ val sparkConf=new SparkConf().setAppName("Test").setMast

2020-05-13 17:39:55 1374

原创 CDH 5.12.1集群搭建与运维过程中的一些踩坑

一、cmf-agent: error: argument --hostname is required描述：启动cloudera-scm-agent失败解决：主机名（hostname）要跟/etc/hosts里配置的一样二、/opt/cloudera/目录更换操作描述：CDH的parcel等文件默认放在/opt/cloudera目录下，但一般情况下这个目录的磁盘空间都比较小，需要把这些文件...

2020-04-22 12:25:09 1820

原创 flume写hdfs使用日志里的时间作为文件目录

在使用flume采集日志写入hdfs的时候，可以通过a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S配置目录名称为日期，默认情况下会使用系统时间，但是在日志采集过程中经常会发生延迟情况，比如23:59的日志00:01才采集完，那这个时候本来是前一天的日志就会被写入第二天的目录里，后续ETL的过程中就会发生误差，这个时候我们会想，能不...

2020-04-17 18:09:23 913

原创 superset、metabase、redash三个开源BI工具的个人使用心得及分析

数据可视化也是大数据领域里极为关键的一环，一开始我们用的是SpringBoot+ECharts的经典组合来做可视化的，确实功能很强也很灵活，但后来随着统计需求越来越多，每来一个新需求都要写大量的重复的MVC代码，这等于花费了许多无用的时间和精力，这种时候就需要一个BI工具来简化这个过程。市面上有很多极为优秀的BI，像Tableau、PowerBI等，但这些都是收费的，不在考虑范围内。而开源免费的...

2020-04-12 12:38:27 28013 6

原创记一次诡异的 ssh: connect to host localhost port 22: Connection refused

配置ssh免密登录应该是搭建集群过程中最基础的步骤之一了，也是一个很简单步骤，但是最近笔者刚收到几台测试机，在配置完ssh免密登录后却怎么也连不通，甚至ssh localhost也是不通的，百度了一下都是说没有安装openssh-server或是没有开启ssh服务，但我肯定是安装好了并且开启了的，这里顺便说一下，可以用 ps -ef | grep ssh 命令看一下，如果像下图一样有sshd的进...

2020-04-06 21:58:32 478

原创 spark streaming读kafka写elasticsearch

spark streaming作为当下依然火热的流计算引擎，对于kafka和elasticsearch都有很好的api支持，以下是笔者在实际生产环境中的一个案例。首先说一下几个重点：kafka消费offset使用mysql保存，一开始使用了ScalikeJDBC这个包来实现对数据库的访问，后来项目里同时有clickhouse的JDBC工具类，两者之间产生冲突，所以就自己写了原生的mysql ...

2020-03-10 23:41:13 590

原创 spark写DSL读取elasticsearch数据（内附踩坑点）

在一些场景下我们可能会遇到需要从es导出一部分特定的数据然后进行处理这样的情况，这个时候spark会是一个不错的选择。第一步 maven配置这里一些工具使用的版本：spark：2.3.4elasticsearch：7.0.0scala：2.11.8maven配置如下：<dependencies>  ...

2020-02-16 18:12:06 1260 2

原创超详细的centos7安装redash教程

redash是一款目前非常流行的开源BI工具，支持的数据源丰富，图表种类多，也比较美观。但有一点不好是目前在centos上安装redash比较麻烦，下面是我亲身实践成功安装的详细步骤：第一步安装docker//安装必要的软件包yum install -y yum-utils device-mapper-persistent-data lvm2 //配置仓库yum-config-mana...

2020-02-03 14:02:03 5703 3

原创 Ruby 获取url参数的方法

第一种参数：url，参数名返回：参数内容def getURLParam(url,param) hash={} hash.default='' if url.index('?') str=url.split('?')[1] if str.split('&') ...

2020-01-17 17:27:57 728

weixin_42473019的博客