自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 HBase的协处理器及应用实战

HBase的协处理器http://hbase.apache.org/book.html#cp1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在...

2019-12-22 15:01:37 356

原创 Spark广播变量

Spark广播变量目标 理解为什么需要广播变量, 以及其应用场景 能够通过代码使用广播变量 广播变量的作用广播变量允许开发者将一个Read-Only的变量缓存到集群中每个节点中, 而不是传递给每一个 Task 一个副本. 集群中每个节点, 指的是一个机器 每一个 Task, 一个 Task 是一个 Stage 中的最小处理单元, 一个 Executo...

2019-12-14 14:10:04 482

原创 SparkRdd 的分区操作及Shuffle原理

RDD 的 Shuffle 和分区分区的作用RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分区数, 分区模式等一一对应分区和 Shuffle 的关系...

2019-12-12 16:55:56 829

原创 kafka常见命令操作及底层原理总结

Kafka集群操作创建topicbin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper node01:2181,node02:2181,node03:2181查看topic bin/kafka-topics.sh --list --zookeeper node...

2019-12-11 17:24:29 117

原创 spark-submit几种提交模式的区别

在spark的提交模式中,有三种提交方式:分别是基于spark集群的standalone模式,基于YARN集群的yarn-client和yarn-cluster三种模式,Standalone,模式提交:spark-submit --master spark://node01:7077 --class scala.WordCount_Online --executor-memory 1g...

2019-12-04 17:55:27 2451

原创 ElasticSearch及全文搜索介绍

一、搜索的介绍搜索是指搜寻检索,指代使用一定手段来检索到我们自己需要的信息,包括从文件当中检索,百度当中检索,网站内部搜索等等全文检索的介绍1、全文检索的需求介绍首先我们谈几个公司,如雷贯耳的:百度、谷歌、维基百科;这些公司都有一个相似性就是门户网站,可以提供我们通过关键字搜索,然后快速的检索出我们想要的信息;【网页百度展示】比如我们检索传智播客,百度后台就会按照这个关键字...

2019-12-02 10:37:21 843

jdk18_linux.zip

linux版本的jdk1.8安装包,亲测有效,一次下载,终身有效.

2019-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除