- 博客(13)
- 收藏
- 关注
原创 Cassandra与SpringBatch批处理
使用SpringBatch框架将海量数据文件中数据批量导入Cassandra数据库中SpringBatch通过springbatch.xml中 batch:job标签具体定义job工作内容step job内步骤项 这里只需要一个就可以tasklet 任务集,可以指定线程池来执行chunk : read-process-write模式 读csv文件,程序处理,然后写入Cassan...
2019-05-19 15:33:52 980
转载 经典数据结构 B树B+树和数据库索引
数据库索引索引简单讲 就是数据库本身数据结构不适合各种搜索算法 也就是数据库提供给搜索算法的数据结构Hash索引B+ 索引关于数据库索引参考以下博客数据库索引详解为啥不用红黑树等结构,偏要用B+树做索引B树 B+树的存在就是为了提升数据库索引速度必须要提到 局部性原理与磁盘预读当一个数据被用到时,其附近的数据也通常会马上被使用程序运行期间所需要的数据通常比较集中为了提升效...
2019-05-18 14:23:06 270
原创 红黑树
啥是虹黑树一种自平衡二叉查找树特性:节点是红色或黑色根节点一定是黑色每个叶节点都是黑色的空节点(NIL节点)每个红节点的两个子节点都是黑色的(从每个叶子到跟的所有路径上不能有两个连续的红节点)(即对于层来说除了NIL节点,红黑节点是交替的,第一层是黑节点那么其下一层肯定都是红节点,反之一样)从任一节点到其每个叶子节点的所有路径都包含相同数目的黑色节点参考博客博客Java TreeM...
2019-05-18 13:54:05 161
原创 Zookeeper选举机制
节点状态LOOKINGLEADINGFOLLOWERINGOBSERVEzxid(zookeeper事务id):zookeeper状态每次改变都会收到一个不同全局唯一的zxid,删除节点,创建节点都会使zookeeper状态改变,zxid不断递增leader服务器选取规则:优先检查zxid,zxid大的作为leader服务器zxid相同就比较myid大小,myid大...
2019-05-12 14:24:45 418
原创 Java 操作kafka
<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.10</artifactId> <version>0.8.0</version> </dependency&...
2019-05-12 14:05:06 804
原创 Scala 操作Kafka
Spark支持Kafka网上这块资料比较多,不再赘述1.spark-streaming-kafka-0-8_2.11-2.1.0.jar 2.kafka 的jar 包3.jar存放路径 spark/jars/kafka生产者import org.apache.spark.streaming.kafka._import org.apache.kafka.clients.pro...
2019-05-12 13:48:52 3166
原创 Python 操作kafka
Python3 安装模块pip3 install kafka-python启动kafka消费者from kafka import KafkaConsumer#consumer=KafkaConsumer('result',group_id='consumer-20171017',bootstrap_servers=['192.168.126.132:9092'])con...
2019-05-12 13:32:37 245
原创 Kafka简单安装与测试
BrokerKafka集群包含一个或多个服务器,这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)PartitionPartition是物理上的概念,每个Top...
2019-05-04 18:00:38 804
原创 SparkStream流处理
输入流文件输入流 // spark streaming 文件输入流// val inputFile = "file:///usr/local/spark/mycode/wordcount/word.txt" val inputFile = "hdfs://192.168.126.130:9000/usr/local" val conf = new Spark...
2019-05-04 09:12:27 1116
原创 Hadoop修改host名以后Hive无法访问
配置信息会被写死在hive的DBS和SBS表里,只要进入mysql,打到DBS和SDS,把地址修改为新的
2019-05-03 21:00:41 796
原创 Spark远程连接Hive数据源
下载winutils.exe,放到HADOOP_HOME/bin下,模拟linux环境scala文件 // 连接hive数据仓库 val sparkSession = SparkSession.builder().appName("HiveCaseJob").master("local[*]").enableHiveSupport().getOrCreate() spa...
2019-05-03 21:00:06 3190
原创 Hadoop与Spark基本原理
HadoopSparkSpark 和 Hadoop区别和联系Hadoop 的 HDFSHadoop 的 MapReduceSpark 宽依赖和窄依赖Spark RDD运行过程Spark RDD阶段划分HadoopHadoop是Apache软件基金旗下的一个开源分布式计算平台,为用户提供系统底层细节透明的分布式基础架构,基于Java开发,有很好的跨平台性,并且可以部署在廉...
2019-05-03 15:08:46 2340
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人