2019年12月_fa124607857

12月 11月 10月 09月 08月 07月 06月

原创 HBase的协处理器及应用实战

HBase的协处理器http://hbase.apache.org/book.html#cp1、起源Hbase 作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如，在旧版本的(<0.92)Hbase 中，统计数据表的总行数，需要使用 Counter 方法，执行一次 MapReduce Job 才能得到。虽然 HBase 在...

2019-12-22 15:01:37 356

原创 Spark广播变量

Spark广播变量目标理解为什么需要广播变量, 以及其应用场景能够通过代码使用广播变量广播变量的作用广播变量允许开发者将一个Read-Only的变量缓存到集群中每个节点中, 而不是传递给每一个 Task 一个副本. 集群中每个节点, 指的是一个机器每一个 Task, 一个 Task 是一个 Stage 中的最小处理单元, 一个 Executo...

2019-12-14 14:10:04 482

原创 SparkRdd 的分区操作及Shuffle原理

RDD 的 Shuffle 和分区分区的作用RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分区数, 分区模式等一一对应分区和 Shuffle 的关系...

2019-12-12 16:55:56 829

原创 kafka常见命令操作及底层原理总结

Kafka集群操作创建topicbin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper node01:2181,node02:2181,node03:2181查看topic bin/kafka-topics.sh --list --zookeeper node...

2019-12-11 17:24:29 117

原创 spark-submit几种提交模式的区别

在spark的提交模式中，有三种提交方式：分别是基于spark集群的standalone模式，基于YARN集群的yarn-client和yarn-cluster三种模式，Standalone,模式提交:spark-submit --master spark://node01:7077 --class scala.WordCount_Online --executor-memory 1g...

2019-12-04 17:55:27 2451

原创 ElasticSearch及全文搜索介绍

一、搜索的介绍搜索是指搜寻检索，指代使用一定手段来检索到我们自己需要的信息，包括从文件当中检索，百度当中检索，网站内部搜索等等全文检索的介绍1、全文检索的需求介绍首先我们谈几个公司，如雷贯耳的：百度、谷歌、维基百科；这些公司都有一个相似性就是门户网站，可以提供我们通过关键字搜索，然后快速的检索出我们想要的信息；【网页百度展示】比如我们检索传智播客，百度后台就会按照这个关键字...

2019-12-02 10:37:21 843

jdk18_linux.zip

linux版本的jdk1.8安装包,亲测有效,一次下载,终身有效.

2019-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人