- 博客(5)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 从es中恢复不存储的字段内容的方法
原理分析es中有个隐藏的字段_source,这个字段中存了其他字段的内容,我们直接查询es返回的结果中展示的各个字段的值其实就是从_source字段中读取的。如果想要对一个字段只建索引,不做存储。就是不把这个字段的值存在_source字段中,这样查询结果中就不会显示该字段的内容。如下图所示:从test3的mapping信息中可以看出 name,count字段是不存储字段内容的。因此,我们...
2019-12-21 15:25:37 1135
原创 Spark基本操作----持续更新中
打开spark shell进入到spark目录打开 Python 版本的 Spark shellbin/pyspark打开 Scala版本的 Spark shellbin/spark-shell退出shell按 Ctrl-Dspark 用户页面的地址http://[ipaddress]:4040Spark Context 的创建SparkConf conf = new S...
2019-12-21 15:16:49 245
原创 Shark为何被抛弃?
Shark的来历Shark是由Reynold Xin从2011年开始主导开发的。当时Hive几乎是唯一的SQL-Hadoop的选择方案,然而hive的性能受限于MapReduce,无法使用spark的计算模型。Shark的提出就是针对这种需求的,它的目标是技能达到企业数据仓库的性能,又你能够具有MapReduce的水平扩展能力。Shark的实现原理Shark建立在Hive代码的基础上,只修改...
2019-12-17 07:09:52 745
原创 spark sql 源码分析
入口SQLContext// 用spark执行sql,返回一个DataFrame最为结果def sql(sqlText: String): DataFrame = sparkSession.sql(sqlText)DataFrame,其实是针对数据查询这种应用,提供的一种基于RDD之上的全新概念,但是,其底层还是基于RDD的;它其实和关系型数据库中的表非常类似,但是底层做了很多的优化,D...
2019-12-10 16:45:19 442
原创 ES内存持续增长问题分析
环境介绍es版本:5.6.4-Xms31g -Xmx31g-XX:MaxDirectMemorySize=10g问题说明用top命令观察ES使用的物理内存不断增加到54.6G已知堆内存31G,堆外内存MaxDirectMemorySize 10G,那么内存使用最高应该不超过41G才对。现在内存使用了54.6G明显超过了预估,那么除了已知的41G外,还有哪些我们不知道的地方在占用内存呢...
2019-12-07 11:07:04 3861
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人