2019年05月_宁缺100

原创 Cassandra与SpringBatch批处理

使用SpringBatch框架将海量数据文件中数据批量导入Cassandra数据库中SpringBatch通过springbatch.xml中 batch:job标签具体定义job工作内容step job内步骤项这里只需要一个就可以tasklet 任务集，可以指定线程池来执行chunk ： read-process-write模式读csv文件，程序处理，然后写入Cassan...

2019-05-19 15:33:52 980

转载经典数据结构 B树B+树和数据库索引

数据库索引索引简单讲就是数据库本身数据结构不适合各种搜索算法也就是数据库提供给搜索算法的数据结构Hash索引B+ 索引关于数据库索引参考以下博客数据库索引详解为啥不用红黑树等结构，偏要用B+树做索引B树 B+树的存在就是为了提升数据库索引速度必须要提到局部性原理与磁盘预读当一个数据被用到时，其附近的数据也通常会马上被使用程序运行期间所需要的数据通常比较集中为了提升效...

2019-05-18 14:23:06 270

原创红黑树

啥是虹黑树一种自平衡二叉查找树特性：节点是红色或黑色根节点一定是黑色每个叶节点都是黑色的空节点(NIL节点)每个红节点的两个子节点都是黑色的(从每个叶子到跟的所有路径上不能有两个连续的红节点)(即对于层来说除了NIL节点，红黑节点是交替的，第一层是黑节点那么其下一层肯定都是红节点，反之一样)从任一节点到其每个叶子节点的所有路径都包含相同数目的黑色节点参考博客博客Java TreeM...

2019-05-18 13:54:05 161

原创 SparkStream实时分析统计展示共享单车使用人数

sparkStream 实时分析统计展示共享单车使用人数

2019-05-17 19:30:20 4079 1

原创 Zookeeper选举机制

节点状态LOOKINGLEADINGFOLLOWERINGOBSERVEzxid（zookeeper事务id）:zookeeper状态每次改变都会收到一个不同全局唯一的zxid，删除节点，创建节点都会使zookeeper状态改变，zxid不断递增leader服务器选取规则：优先检查zxid，zxid大的作为leader服务器zxid相同就比较myid大小，myid大...

2019-05-12 14:24:45 418

原创 Java 操作kafka

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.10</artifactId> <version>0.8.0</version> </dependency&...

2019-05-12 14:05:06 804

原创 Scala 操作Kafka

Spark支持Kafka网上这块资料比较多，不再赘述1.spark-streaming-kafka-0-8_2.11-2.1.0.jar 2.kafka 的jar 包3.jar存放路径 spark/jars/kafka生产者import org.apache.spark.streaming.kafka._import org.apache.kafka.clients.pro...

2019-05-12 13:48:52 3166

原创 Python 操作kafka

Python3 安装模块pip3 install kafka-python启动kafka消费者from kafka import KafkaConsumer#consumer=KafkaConsumer('result',group_id='consumer-20171017',bootstrap_servers=['192.168.126.132:9092'])con...

2019-05-12 13:32:37 245

原创 Kafka简单安装与测试

BrokerKafka集群包含一个或多个服务器，这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）PartitionPartition是物理上的概念，每个Top...

2019-05-04 18:00:38 804

原创 SparkStream流处理

输入流文件输入流 // spark streaming 文件输入流// val inputFile = "file:///usr/local/spark/mycode/wordcount/word.txt" val inputFile = "hdfs://192.168.126.130:9000/usr/local" val conf = new Spark...

2019-05-04 09:12:27 1116

原创 Hadoop修改host名以后Hive无法访问

配置信息会被写死在hive的DBS和SBS表里，只要进入mysql，打到DBS和SDS,把地址修改为新的

2019-05-03 21:00:41 796

原创 Spark远程连接Hive数据源

下载winutils.exe，放到HADOOP_HOME/bin下，模拟linux环境scala文件 // 连接hive数据仓库 val sparkSession = SparkSession.builder().appName("HiveCaseJob").master("local[*]").enableHiveSupport().getOrCreate() spa...

2019-05-03 21:00:06 3190

原创 Hadoop与Spark基本原理

HadoopSparkSpark 和 Hadoop区别和联系Hadoop 的 HDFSHadoop 的 MapReduceSpark 宽依赖和窄依赖Spark RDD运行过程Spark RDD阶段划分HadoopHadoop是Apache软件基金旗下的一个开源分布式计算平台，为用户提供系统底层细节透明的分布式基础架构，基于Java开发，有很好的跨平台性，并且可以部署在廉...

2019-05-03 15:08:46 2340

技术札记