大数据
文章平均质量分 65
worgent
这个作者很懒,什么都没留下…
展开
-
记一次百亿级es数据性能优化-未完成
先说结论和todo结论:todo:1.SSD没发挥性能问题问题继续测试2.数据分片数量&大小对性能影响3.行业对比,es最快就只能达到1亿1s的性能吗?正好赶上一个规模比较大的项目,2000多台机器,所有组件及任务日志全部都要采集,我们采用的方案是Elasticsearch+logstash+filebeat的方案。在项目上线一个月左右,出现了数据查询报错的问题,报错读超时...原创 2020-01-14 17:28:11 · 1865 阅读 · 0 评论 -
2000节点集群 监控系统优化
某项目主机节点数2k,基于Hbase+Phoenix监控系统经历调优,满足项目需求,每天采集监控指标数2亿。hbase采用2 master,8regionserver配置,主机配置 256G内存,与其他服务共用。...原创 2019-11-22 15:25:47 · 497 阅读 · 0 评论 -
hbase 队列满导致问题解决
自从升级到了beh8.0后,3台实体机,机器配置128G*3, hbase经常性出现队列堆积;出现队列堆积后,hbase服务基本处于拒绝服务的状态,产品对应监控服务停摆。修复方式,首先关闭监控指标采集服务,避免造成更严重的后果。此时按理来说应该等待服务消化堆积的队列数据,但是据几次观察,发现服务队列堆积没有缓解,判断是服务已经停止服务,最起码是regionserver停止了服务。此...原创 2019-11-22 14:39:48 · 3004 阅读 · 0 评论 -
hadoop集成kerberos错误排查-core dump
最近研究kerberos,刚开始安装就遇到了个棘手的问题,core dump了。 好些年不写c程序,这东西还真有点陌生。[root@hadoop165 ~]# service krb5kdc startRedirecting to /bin/systemctl start krb5kdc.serviceJob for krb5kdc.service failed because a fata原创 2017-08-29 10:54:32 · 2687 阅读 · 0 评论 -
java.net.UnknownHostException 错误排查
x帅timeline项目起不来,连接phoenix的时候,报错java.net.UnknownHostException: beh,此错误以前遇到过,没有深入研究,大概上是因为无法找到hdfs的主机,一般上这个地址是在hdfs-site.xml和core-site.xml配置中配置的。本机测试,发现没有问题,然后采用对比排除法(即逐步对比x帅的配置与自己的配置),最后因为这个坑,导致自己在替换的过程原创 2017-09-22 15:47:16 · 35221 阅读 · 0 评论 -
phoenix调优小记
从17年调优到了18年,数据从100机器每天1200万,不到两星期累加到了小2个亿数据。数据插入和查询效率都很低。1.5 15:520: jdbc:phoenix:localhost:2181> select count(*) from METRIC_RECORD;+-----------+| COUNT(1) |+-----------+| 34244885 |+---------原创 2018-01-08 16:29:07 · 4278 阅读 · 1 评论 -
hadoop3.0升级可研报告及个人方案
xx总部项目,节点数众多,数千,甲方要求版本也极其凶残,遂某公司大数据组件发行版需升级组件版本如下:hadoop 3.1.2hive 3.1.0hbase 2.1.2spark 2.3.0一。hadoop版本hadoop作为基础版本,虽然17年12月已经发布3.0.0 ga版本,但到目前未听闻大规模生产环境使用案例。(孤陋寡闻)3.1.2版本为19年2月6日...原创 2019-03-08 16:03:09 · 1046 阅读 · 0 评论 -
k8s环境 hbase服务异常排查-regionserver重复注册问题
一个regionserver 注册了两次,主机名和ip 各一次,引起hbase(phoenix)服务异常。先说下基础环境,zk,hbase部署在k8s,hdfs物理部署。beh-manager(简称manager)管理所有组件。manager死活连不上hbase服务,仔细查看报错,发现域名对应的ip地址有问题,已经不是当前了,log显示为192.168.217.27,实际已经变为192.1...原创 2019-03-04 10:33:52 · 1162 阅读 · 0 评论 -
基于hbase2.1.3编译phoenix 5.0.0蹚坑记录
应公司要求,组件版本升级,hadoop3.1.0,hbase2.1.3,背景见《hadoop3.0升级可研》。因为我们的产品监控是基于phoenix实现,hbase版本升级首先带来的就是phoenix版本升级,目前官方最高版本为基于hbase2.0的phoenix5.0版本,没有提供基于hbase2.1版本,故只能自己编译。先下载phoenix5.0.0-hbase2.0 tag代码, 打包编...原创 2019-03-22 15:02:19 · 3186 阅读 · 7 评论 -
hadoop集成kerberos错误排查-Failed to find any Kerberos tgt
hdfs分发完keytab然后启动,发现报错 hdfs GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)][hadoop@hadoop167 conf]$ kinit -k -t /opt/beh原创 2017-09-05 11:00:23 · 34409 阅读 · 10 评论 -
基于cdh570的phoenix编译
一。背景近日重构产品的监控告警系统,原来是基于hbase实现,做的比较粗糙,无法实现数据聚合等功能,遂决定重构。 原来基于hbase实现,所有的读取代码也都是用的原生hbase api获取,除了冗余度问题外,还有就是可维护性较差,遂决定变更存储方案。 通过筛选,有以下几种方案。 优点 缺点 hbase 兼容性较好 hbase+phoenix 设计简单;有现成的开原方案amb原创 2017-07-26 11:33:24 · 1456 阅读 · 0 评论 -
phoenix-cdh570 兼容性问题排查
之前写了《基于cdh570的phoenix编译》,开发环境测试没有问题,版本测试过程中发现问题, 每次建立SYSTEM.CATALOG必出错,每次SYSTEM.CATALOG对应的region都会处于regions in transition的状态。 经过仔细排查日志发现,是因为编译出来的包分为各工程单独的包,如 phoenix-server-4.7.1-HBase-1.2-cdh-SNA原创 2017-08-04 10:16:06 · 2123 阅读 · 0 评论 -
厂商SSD对数据库性能影响测试
基于TPCH基准测试,对比SSD和HDD两种情况下MYSQL性能。原创 2017-05-10 12:10:01 · 2892 阅读 · 0 评论 -
TPCH测试脚本
tpch测试脚本原创 2017-05-11 12:47:35 · 2519 阅读 · 1 评论 -
某企业级hadoop源代码分析-2
本文尝试分析某大型大数据解决方案公司企业级hadoop源代码,班门弄斧。 本篇文章的重点为HashMap vs TreeMap,LightWeightHashSet; 重点在于数据结构的访问速度和内存占用。原创 2017-05-10 18:39:24 · 389 阅读 · 0 评论 -
某企业级hadoop源代码分析-3
本文尝试分析某大型大数据解决方案公司企业级hadoop源代码,班门弄斧。本篇文章的重点为hdfs block管理逻辑。修改点3@@ -1086,7 +1087,8 @@ if (!namesystem.isPopulatingReplQueues()) { return; }- invalidateBlocks.add(block, datanode, tr原创 2017-05-12 16:12:03 · 381 阅读 · 0 评论 -
某公司T+M测试题
最近某公司研发部门T+M改革,别的没见着,上来先考试测试水平,想想也是,作为市值百亿的上市公司,也该好好抓抓研发了。 作为一个销售型公司,主要是做项目,销售导向太浓烈,研发部门的老大感觉就是销售和售前,吹起来都是山呼海啸的。对内对外都一个德行,关键是心里素质好,说完就跟没事人似得。 一个四五年前的patch,多少年都没迭代了,到现在还在吹,喂,hadoop从0.20都升级到3.0了,醒醒啦。一原创 2017-05-11 13:14:54 · 464 阅读 · 0 评论 -
HIVE作业管理解决方案分析
hive任务处理 对于hive任务展示的时候需要把id和mr id关联, 杀死任务的时候需要把所有属于这个hive语句的任务都杀死。原创 2017-05-09 16:32:06 · 2341 阅读 · 0 评论 -
SSD对HADOOP集群性能提升 调研及测试计划
本文主要调研SSD对于HADOOP集群性能的影响,并制定相应的测试计划,性能影响主要针对常见的HADOOP,HBASE,HIVE三个组件。通过调研发现,组件自身也在考虑SSD对其产生的性能影响,并做了针对性更新,其中HADOOP作为基础组件,分别在2.3.0版本和2.6.0版本提供了对混合存储和分层存储的支持。这些更新已经在一些大的公司中得到了应用,EBAY通过在集群中使用分层存储,原创 2017-05-10 11:59:48 · 4139 阅读 · 1 评论 -
zepplin坑 一则
近日,某联通要用可视化任务工具,故选择zepplin。部署后,遇坑。hive执行show databases,需要2分钟延迟,本地测试无问题,查看源代码,发现hive每次都会先获取hive元数据,导致延迟。原创 2017-05-19 19:29:26 · 582 阅读 · 0 评论 -
phoenix-hbase 服务频繁挂掉问题排查
近日监控系统改造,使用了phoenix+hbase,最近演示环境监控经常出问题,初步查看为hbase挂掉。 经过log排查发现,是由于centos7.0默认没有fuser命令导致hadoop ha切换失败,hadoop集群挂掉导致; namenode挂掉是由于zookeeper超时时间设置太小导致。以下为具体排查过程,1.首先查看hbase-master log,log显示由于hadoop集群连原创 2017-08-03 11:16:18 · 3231 阅读 · 0 评论 -
某企业级hadoop源代码分析-1
本文尝试分析某大型大数据解决方案公司企业级hadoop源代码,班门弄斧。 本系列将分三篇文章,对所做的修改进行分析。修改点1Index: org/apache/hadoop/hdfs/server/namenode/AclTransformation.java===================================================================-原创 2017-05-10 18:25:37 · 547 阅读 · 0 评论