2017年10月_小江_xiaojiang

12月 11月 10月 09月 08月 07月 06月 05月 01月

原创 kafka问题总结

kafka重启如果topic副本因子是一个的有可能导致以下两种问题：1、class kafka.common.LeaderNotAvailableException错误处理方案：一般是zk上的leader信息和broker上的leader信息不一致可以通过如下命令检查zk上信息：get /brokers/topics/profile-manual-x/partitions/

2017-10-25 09:56:50 666

原创 java实时读取log日志文件

需求：需求：正在开发一个监控系统，要求将多台日志信息实时采集出来，然后保存到Kafka中，后期对日志数据进行spark运算、大数据处理分析，日志按大小，时间切分。运用的技术：RandomAccessFile类中seek方法可以从指定位置读取文件，可以用来实现文件实时读取，JDK文档有对RandomAccessFile的介绍。思想：在每一次读取后，close一下就不会影响重命

2017-10-16 17:08:19 39881 4

转载 kafka在zookeeper中存储结构

1.topic注册信息/brokers/topics/[topic] :存储某个topic的partitions所有分配信息Schema:{ "version": "版本编号目前固定为数字1", "partitions": { "partitionId编号": [ 同步副本组brokerId列表

2017-10-12 16:45:44 402

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss

JVM调优总结 -Xms -Xmx -Xmn -Xss堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设

2017-10-10 16:15:39 324

原创 Spark RDD 分区数详解

基础知识spark.default.parallelism：（默认的并发数）= 2当配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：1、本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线程数来并发）： spark-shell spark.default.parallelism = 1 s

2017-10-10 14:05:23 12074 3