自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 从es中恢复不存储的字段内容的方法

原理分析es中有个隐藏的字段_source,这个字段中存了其他字段的内容,我们直接查询es返回的结果中展示的各个字段的值其实就是从_source字段中读取的。如果想要对一个字段只建索引,不做存储。就是不把这个字段的值存在_source字段中,这样查询结果中就不会显示该字段的内容。如下图所示:从test3的mapping信息中可以看出 name,count字段是不存储字段内容的。因此,我们...

2019-12-21 15:25:37 1134

原创 Spark基本操作----持续更新中

打开spark shell进入到spark目录打开 Python 版本的 Spark shellbin/pyspark打开 Scala版本的 Spark shellbin/spark-shell退出shell按 Ctrl-Dspark 用户页面的地址http://[ipaddress]:4040Spark Context 的创建SparkConf conf = new S...

2019-12-21 15:16:49 245

原创 Shark为何被抛弃?

Shark的来历Shark是由Reynold Xin从2011年开始主导开发的。当时Hive几乎是唯一的SQL-Hadoop的选择方案,然而hive的性能受限于MapReduce,无法使用spark的计算模型。Shark的提出就是针对这种需求的,它的目标是技能达到企业数据仓库的性能,又你能够具有MapReduce的水平扩展能力。Shark的实现原理Shark建立在Hive代码的基础上,只修改...

2019-12-17 07:09:52 745

原创 spark sql 源码分析

入口SQLContext// 用spark执行sql,返回一个DataFrame最为结果def sql(sqlText: String): DataFrame = sparkSession.sql(sqlText)DataFrame,其实是针对数据查询这种应用,提供的一种基于RDD之上的全新概念,但是,其底层还是基于RDD的;它其实和关系型数据库中的表非常类似,但是底层做了很多的优化,D...

2019-12-10 16:45:19 442

原创 ES内存持续增长问题分析

环境介绍es版本:5.6.4-Xms31g -Xmx31g-XX:MaxDirectMemorySize=10g问题说明用top命令观察ES使用的物理内存不断增加到54.6G已知堆内存31G,堆外内存MaxDirectMemorySize 10G,那么内存使用最高应该不超过41G才对。现在内存使用了54.6G明显超过了预估,那么除了已知的41G外,还有哪些我们不知道的地方在占用内存呢...

2019-12-07 11:07:04 3859

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除