![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Poche_lzx
数据改变世界
展开
-
华院数据 学习 D04
大数据开发 hadoop hive 简单应用原创 2017-06-22 17:18:22 · 411 阅读 · 0 评论 -
Elasticsearch5.6.3存储字节数组
Elasticsearch5.6.3存储字节数组Index建立java代码插入示例kinbana存储显示读取字节数组Index建立字节数组在Elasticsearch中数据类型对应binary。因此在新建索引时需要注意类型{"mappings":{ "tags":{ "_all": { "enabled": false }, "jobClass...原创 2018-09-18 14:46:50 · 2649 阅读 · 0 评论 -
Redis分布式锁
Redis分布式锁 (jedis)1.针对场景分布式集群,例如MR 多个节点上的不同jvm。 传统的多线程仅针对同一jvm下的操作。如果跨节点的数据锁问题需要另外的支持分布式锁的库来处理。例如zookeeper 或 redis 天生对分布式场景有良好的适性。2.业务需求一般用于一些统计业务,需要求取每个节点上的数据总和。分布式场景带来的并发问题需要利用redis分布式锁处理。3...原创 2018-09-17 14:38:35 · 307 阅读 · 0 评论 -
Hbase由于GC时间过长导致 Zookeeper认为其死亡 节点自动关闭
Hbase由于GC时间过长导致 Zookeeper认为其死亡 节点自动关闭目录Hbase由于GC时间过长导致 Zookeeper认为其死亡 节点自动关闭目录日志官方解释配置添加后记记录Hbase regionserver 经常死亡的原因。日志日志内容如下:2018-05-29 10:04:20,809 ERROR [regionserv...原创 2018-05-29 14:59:52 · 4617 阅读 · 0 评论 -
java 使用HashMap统计数目的性能对比
之前偶然看到了描述java计数的帖子 看到了对Integer的分析,而改用一个自定义的MutableInteger进行计数,性能上确实有所提升。因为之前也用到了Map计数的情况,但是因为对1.8引入的FI比较感兴趣,并且公司也更新到了1.8,所以就利用了1.8的新特性做了这个计数。这是大概几次下来比较平均的数值(万恶的GC。。。)Naive Approach : 156887211Better ...原创 2018-04-11 19:02:25 · 1366 阅读 · 0 评论 -
磁盘爆满导致zookeeper卡住
场景复现:线上服务器磁盘满了导致部署在上面的namenode zookeeper Kafka 均无法工作 抛出异常,清理kafka备份文件后系统磁盘还原了100G+,但是此时的zookeeper节点已经无法再加入集群。3台 zookeeper节点 出问题的节点在当时是作为leader工作的。错误日志抛出异常后节点挂掉。再次启动之后 该节点已经无法加入已经存在的集群中。经过查找相关资料https:/...原创 2018-03-19 19:59:20 · 2029 阅读 · 0 评论 -
flume1.5 kafka0.8 logstash2.4 es5.6 错误日志聚集解决方案
错误日志聚集解决方案简述:目的:对分散在各集群上的错误日志信息进行实时采集聚集,由flume采集给kafka, 之后消费到logstash进行日志解析,最终将解析的json格式数据交由elasticsearch,利用kinbana进行查询,图表展示。 目前版本为 flume 1.5 kafka0.8.1.1 原本存在的问题:flume采集时如果文件发生了变化无法判断是否为原文件,因而无法进行采集...原创 2018-02-13 10:40:36 · 616 阅读 · 0 评论 -
Spark学习笔记2
内部:groupByKey/reduceByKey-a.groupByKeycombineByKeyWith底层都是调用到类似def combineByKeyWithClassTag[C](//聚合的临时变量,将聚合的数据存放到哪里或者转换成什么格式//针对每个分区进行,次分区中key第一次出现createCombiner原创 2017-09-14 16:51:47 · 228 阅读 · 0 评论 -
Spark学习笔记1
一、Spark 的简介:-》spark只是一种类类似于Mapreduce的计算模型-》用来处理数据-》处理数据:RDD-》RDD:弹性分布式数据集(集合)-》内存,分布式,分区(可以优化的点:分区数》=线程数,一般1核处理1-2个分区的数据)-》读取数据:将不同的数据读取到RDD中-》处理数据:调用RDD中的方法,处理数据,生成新的R原创 2017-09-14 16:50:34 · 251 阅读 · 0 评论 -
记Hbase集群升级导致zookeeper连接数达Max的bug
记Hbase集群升级导致zookeeper连接数达Max的bug概述:hbase由0.98升至1.2.6 AggregationClient类实现了closeable接口 需要关闭,然而代码编译过程中没有出现error,升级的时候封装类没有添加关闭的操作,导致页面访问时开启zookeeper连接过多并且不会关闭。最终引发一系列问题zookeeper拒绝hbase访问,数据存储失败。最初开始出现...原创 2018-10-29 15:28:24 · 998 阅读 · 0 评论