大数据
文章平均质量分 74
悟初境
What I cannot create, I do not understand.
展开
-
HBase链路监控:HTrace+Zipkin
HTrace是曾经apache的一个孵化项目,在18年孵化失败,停止开发了:https://incubator.apache.org/projects/htrace.html。但在早期HBase和Hadoop版本中使用了HTrace,可以试试。在hbase的lib下已经自带了htrace的依赖:启用trace功能...原创 2022-07-06 22:03:52 · 959 阅读 · 0 评论 -
HBase RegionServer挂掉导致集群不可用问题
生产中HBase RegionServer挂掉一个,整个集群却不可用了,排查下问题原因原创 2022-07-03 08:06:31 · 5927 阅读 · 0 评论 -
最后一次:HDFS的permission denied
在使用Hadoop HDFS时,几乎初学者都会遇到下面的权限问题,有的人草草搜索解决了,却不知道为什么,下次换一种场景依然解决不了。只有了解其本质原因,才能举一反三。异常信息:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=administrator, access=WRITE, inode="/user/hdfs/xxx":原创 2021-04-23 21:45:07 · 1488 阅读 · 0 评论 -
快速构建hadoop单机版docker镜像
云是未来,未来已来!容器是云的核心组件,docker是实现容器的事实标准。hadoop是使用最广的大数据组件,然而其并没有官方镜像。所以,本文会搭建一个伪分布式版hadoop集群,用于CI测试非常方便。准备准备的文件结构如下:├── dockerfile├── hadoop│ ├── core-site.xml│ ├── hadoop-2.7.7.tar.gz│ ├── hdfs-site.xml│ ├── mapred-site.xml└── start-servi原创 2021-02-27 20:38:17 · 1051 阅读 · 0 评论 -
HDFS FileSystem使用的坑
在初次使用HDFS客户端下载文件时,很容易写出下面的代码FileSystem fileSystem = FileSystem.get(uri, conf, "hadoopuser");// 使用fileSystem做操作try (BufferedReader br = new BufferedReader( new InputStreamReader(fileSystem.open(new Path("/dat原创 2021-01-30 11:01:33 · 4235 阅读 · 2 评论 -
hbase手动合并region Java实现
有时需要手动合并hbase的region,顺手写个工具类。命令行在命令行可以通过 merge_region来合并2个region:hbase> merge_region 'ENCODED_REGIONNAME','ENCODED_REGIONNAME'hbase> merge_region 'ENCODED_REGIONNAME','ENCODED_REGIONNAME',true比如全名称是TestTable,0094429456,128947600452.56d55dsf5656原创 2020-10-11 19:58:01 · 951 阅读 · 0 评论 -
分页读取hdfs文件
分页读取hdfs文件。通过流是可以随机读的。准备数据放到 /jimo/linux.csv# cat linux.csv 0,01,12,23,34,45,56,67,78,89,910,1011,1112,1213,1314,1415,1516,1617,1718,1819,19第一次读取10行读取时记录读了多少个字符final FileSystem fs = getFileSystem();int batch = 10;long pos = 0;原创 2020-08-25 20:47:04 · 595 阅读 · 0 评论 -
scala集合
scala集合学习笔记。scala集合基本介绍scala同时支持可变和不可变集合,不可变集合可安全的并发访问2个主要的包:不可变:scala.collection.immutable可变:scala.collection.mutablescala默认采用不可变集合,对于几乎所有集合类,scala都提供了2个版本不可变:集合本身内存地址不可变集合的继承关系图注意scala和java集合体系的不同。原创 2020-07-22 07:49:53 · 240 阅读 · 0 评论 -
clickhouse导入csv某些列
安装配置清华镜像下载:https://mirrors.tuna.tsinghua.edu.cn/clickhouse/rpm/stable/x86_64/事实上,只需要安装以下3个就可以了:clickhouse-client-20.4.4.18-2.noarch.rpm原创 2020-07-21 21:06:11 · 4019 阅读 · 0 评论 -
spark jobserver加入认证
如何给jobserver加入认证,本文给一些寻找答案的方式。通过官方文档和示例一般就能够解决了。首先启用shiro认证在你的 conf配置文件里加入:shiro { authentication = on # 推荐用绝对路径 config.path = "shiro.ini"}然后在配置同一个目录加入 shiro.ini文件。查看官方给的模板示例:basichttps://github.com/spark-jobserver/spark-jobserver/blob/mast原创 2020-06-24 20:55:56 · 237 阅读 · 0 评论 -
统计Hive表占用空间大小
首先,Hive的数据是存在HDFS上的,统计Hive表大小就算统计文件的大小。虽然在Hive的管理界面可以看到HDFS文件占用的整体大小,但如何查看每张表占用的空间呢?几经搜索,没有发现hive现成的命令,于是,动手撸一个出来吧。基于python实现下面这部分代码是非常低效的,因为对hive命令不了解,所以走了弯路,但实际上是可行的,20T的文件,共一百多张表,用41个线程跑了2小时才跑完。核心就是:hadoop fs -ls /path# hadoop fs -ls /user/hive/wa原创 2020-06-20 08:45:42 · 6697 阅读 · 0 评论 -
10分钟系列-zookeeper入门
10分钟zookeeper总结。安装配置解压修改配置:zoo.cfg, 修改dataDir启动:bin/zkServer.sh start默认是standalone分布式部署同步安装包在zkData数据目录下创建一个myid文件编辑myid,输入唯一标识,比如2,3,4配置zoo.cfg :# server.A=host1:B:C# A: myid编号# B:数据通信端口# C:选举通信的端口server.2=host1:2888:3888server.3=host2:2原创 2020-06-13 09:28:36 · 223 阅读 · 0 评论 -
JanusGraph快速入门
笔者由于工作中需要用到图数据库,所以花2小时研究了下Janus Graph这个开源项目,下面是一些学习心得,如果后面使用有更多启发再更新,如有错误,欢迎纠正。学习一门技术最标准的方式是从官网入门:https://docs.janusgraph.org/然后搞清楚以下问题即可:是什么?为什么出现?基本原理怎么使用再深入理解原理1.JanusGraph是什么本质问题是图数据库是什么...原创 2020-04-18 20:32:26 · 3301 阅读 · 0 评论 -
The server was not able to produce a timely response to your request
如果使用的jobserver的同步提交任务,像这样:jobserver主机域名/jobs?...&sync=true&timeout=1000虽然这里指定了等待1000秒,但是出现了标题中的超时问题,这时需要修改jobserver的配置文件:位于jobserver目录的yarn.confspray.can.server { # Debug timeouts ...原创 2020-03-17 20:13:48 · 607 阅读 · 0 评论