stuliper-CSDN博客

原创 python-kafka pykafka

kafka-pythonfrom kafka import KafkaConsumer,TopicPartition,OffsetAndMetadataconsumer = KafkaConsumer("wd-prd-data-test", group_id="wd_prd_info_group", ...

2021-07-13 17:23:03 241

Controller leader在Kafka早期版本，对于分区和副本的状态的管理依赖于zookeeper的Watcher和队列：每一个broker都会在zookeeper注册Watcher，所以zookeeper就会出现大量的Watcher, 如果宕机的broker上的partition很多比较多，会造成多个Watcher触发，造成集群内大规模调整；每一个replica都要去再次zookee...

2019-03-19 14:12:29 1842

原创基于kafka-0.8.2.2 数据安全处理

当前使用的kafka-0.8.2.2 没有安全管理模块kafka-manager没有安全管理模块，通过nginx反向代理、用户认证来实现安全管理做相应的网络安全限制，对外桌面服务可以直接访问nginx服务器，而无法访问部署kafka-mannager的主机（限制端口）方式1：基于kafka-0.8.2.2 开发管理模块对SSL，kerberos，zookeeper分布式鉴权方方式做了些了...

2018-09-14 17:19:38 335

原创 windows idea pyspark python运行spark程序

1，安装python3 安装python3，添加到系统环境变量path中：D:\Python37；D:\Python37\Scripts 安装pip组件 pip install py4j2，安装intellJ idea 安装好intellJ idea 安装python插件，配置python 3，下载hadoop安装包 ...

2018-09-06 09:15:41 2178

原创直接插入排序

原理：从待排序的n个记录中的第二个记录开始，依次与前面的记录比较并寻找插入的位置，每次外循环结束后，将当前的数插入到合适的位置。稳定性：稳定排序。时间复杂度： O(n)至O（n2），平均时间复杂度是O（n2）。最好情况：当待排序记录已经有序，这时需要比较的次数是Cmin=n−1=O(n)。最坏情况：如果待排序记录为逆序，则最多的比较次数为Cmax=∑i=1n−1(i)=n(n−1)...

2018-08-30 23:49:23 878

原创 kafka offset 机制

kafka消息处理类：MessageAndOffsetcase class MessageAndOffset(message: Message, offset: Long) { /** * Compute the offset of the next message in the log */ def nextOffset: Long = offset + 1}...

2018-08-30 09:24:32 4591 3

原创冒泡排序

冒泡排序总的平均时间复杂度为冒泡排序算法的原理如下：比较相邻的元素。如果第一个比第二个大，就交换他们两个。对每一对相邻元素做同样的工作，从开始第一对到结尾的最后一对。在这一点，最后的元素应该会是最大的数。针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。自己理解：相邻比较，对数...

2018-08-28 14:40:36 198

原创快速排序

通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。设要排序的数组是A[0]……A[N-1]，首先任意选取一个数据（通常选用数组的第一个数）作为关键数据，然后将所有比它小的数都放到它前面，所有比它大的数都放到它后面，这个过程称为一趟快速排序。...

2018-08-28 14:37:39 159

原创 linux常用命令

变量赋值，要紧凑，不要有空格``命令模式，无法换行1,暴力赋权（a：所有用户，w：写，x：执行,-R:递归所有)chmod a+wx -R foldername2,查看文件系统格式 df -T -hfile -s /dev/vda1cat /etc/fstab3，查看文件夹大小 du 查看目录占用空间大小 du -h --max-depth=1 du -...

2018-08-28 13:59:26 213

原创 spark 启动流程源码解析

简单例子object sum { def main(args: Array[String]): Unit = { val conf =new SparkConf().setAppName("SUM"); conf.setMaster("local[3]") val size=1024*1024*1024; val sc=new SparkContext(c...

2018-08-21 17:01:03 1465

原创 spark RDD

每个RDD都有其对应的依赖，依次索引，就可以追踪到起始RDD（其依赖为空）当前RDD的逻辑处理都是对其父RDD的操作,当前RDD数据是对其父RDD数据做compute(~)获得的，这种操作实现了RDD的惰性加载 spark RRD 依赖关系：窄依赖：每个父RRD的分区至多被一个子RDD的分区使用，协同划分，分区一一对应。宽依赖：多个子RDD的分区依赖一个父RDD的分区。多对多的...

2018-08-09 16:09:47 146

原创 spark stage

spark RRD 依赖关系：窄依赖：每个父RRD的分区至多被一个子RDD的分区使用，协同划分，分区一一对应。宽依赖（ShuffleDependecy）：多个子RDD的分区依赖一个父RDD的分区。宽依赖需要所有的父RDD分区数据可用。宽依赖会重新分区。宽依赖操作会有一个可选参数（手动设置分区数）。宽依赖对应的RDD实现是Shu...

2018-08-09 15:54:46 345

原创 SequenceFile读文件源码解析

读取文件数据FileSystem实例化#实例化FileSystem对象（DistributedFileSystem实例）#DFSClient构造方法，关键代码块SequenceFile.Reader 实例化Reader构造方法源码(部分)#通过抽象类FileSystemLinkResolver.resolve方法获...

2018-07-19 15:44:42 771

sshpass-1.06-2.el7.x86_64.rpm

rpm -ivh sshpass-1.06-2.el7.x86_64.rpm 安装即可用

2021-09-09

pdsh安装包及教程.zip

yum install pdsh 不支持的话，通过安装包安装 pdsh 安装包及教程

2021-08-18

flume-ng-sql-source-1.5.2

flume-ng-sql-source-1.5.2 基于flume1.6编译的和基于flume1.8编译的 custom.query逻辑做了些调整，单一条件参数作为查询结果的第一列，第一列正序排序。比较条件参数来返回结果。LastIndex中的保存的是参数条件，就无法通过计数索引来获取数据。下一步：计划改进如上功能都可实现

2019-01-22

ES-sql-6.3.2 编译好的可直接使用

elasticsearch-sql-6.3.2 需要先编译，否则会报错如上提供的安装包是编译好的，可直接使用

2018-12-04

kafka-manager 最新版本已经编译好，可直接使用

kafka-manager-1.3.3.18，已经使用sbt编译好，可以直接部署使用 kafka版本支持：kafka-0.8.1.1 到 kafka-1.1.0

2018-09-19

spark-assembly linux下运行local模式缺失包

spark streaming job 打成jar包，在linux系统下运行local模式，报错： 18/04/12 14:14:18 ERROR SparkContext: Error initializing SparkContext. com.typesafe.config.ConfigException$Missing: No configuration setting found for key 'akka.version' at com.typesafe.config.impl.SimpleConfig.findKey(SimpleConfig.java:124) at com.typesafe.config.impl.SimpleConfig.find(SimpleConfig.java:145) at com.typesafe.config.impl.SimpleConfig.find(SimpleConfig.java:151) at com.typesafe.config.impl.SimpleConfig.find(SimpleConfig.java:159) at com.typesafe.config.impl.SimpleConfig.find(SimpleConfig.java:164) at com.typesafe.config.impl.SimpleConfig.getString(SimpleConfig.java:206) at akka.actor.ActorSystem$Settings.<init>(ActorSystem.scala:169) at akka.actor.ActorSystemImpl.<init>(ActorSystem.scala:505) at akka.actor.ActorSystem$.apply(ActorSystem.scala:142) at akka.actor.ActorSystem$.apply(ActorSystem.scala:119) at org.apache.spark.util.AkkaUtils$.org$apache$spark$util$AkkaUtils$$doCreateActorSystem(AkkaUtils.scala:121) at org.apache.spark.util.AkkaUtils$$anonfun$1.apply(AkkaUtils.scala:53) at org.apache.spark.util.AkkaUtils$$anonfun$1.apply(AkkaUtils.scala:52) 补全spark-assembly jar包解决问题。 java -cp ./wd:./spark-assembly.jar:./spark-streaming-job.jar job-main

2018-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

stuliper的专栏

原创 python-kafka pykafka

原创 kafka leader 选举

原创基于kafka-0.8.2.2 数据安全处理

原创 windows idea pyspark python运行spark程序

原创直接插入排序

原创 kafka offset 机制

原创冒泡排序

原创快速排序

原创 linux常用命令

原创 spark 启动流程源码解析

原创 spark RDD

原创 spark stage

原创 SequenceFile读文件源码解析

sshpass-1.06-2.el7.x86_64.rpm

pdsh安装包及教程.zip

flume-ng-sql-source-1.5.2

ES-sql-6.3.2 编译好的可直接使用

kafka-manager 最新版本已经编译好，可直接使用

spark-assembly linux下运行local模式缺失包

kafka-manager 编译好的可以直接使用

lugin-repository(maven nexus-2.11插件)

maven nexus-2.11 bundle

当当网(电子商务平台)

JQuery_API辅助文档

oracle_API文档

hibernate API文档

新豆网（电子商务平台）

空空如也

sshpass-1.06-2.el7.x86_64.rpm

pdsh安装包及教程.zip

flume-ng-sql-source-1.5.2

ES-sql-6.3.2 编译好的可直接使用

kafka-manager 最新版本 已经编译好，可直接使用

spark-assembly linux下运行local模式缺失包

kafka-manager 编译好的 可以直接使用

lugin-repository(maven nexus-2.11插件)

maven nexus-2.11 bundle

当当网(电子商务平台)

JQuery_API辅助文档

oracle_API文档

hibernate API文档

新豆网（电子商务平台）

空空如也

kafka-manager 最新版本已经编译好，可直接使用

kafka-manager 编译好的可以直接使用