- 博客(16)
- 资源 (17)
- 收藏
- 关注
原创 最近工作中遇到ElasticSearch一些问题总结
最近在使用ElasticSearch来查询我们的一些实时数据,中间也遇到不少的问题,今天在此简单总结记录一下。es的功能的确十分强大,大部分数据库能实现的需求,基本在es里面都能实现,当然两者都有一些特殊的功能,是双方不能实现或者不容易实现的。案例一:es单个字段分组后,分页是个小坑,因为分组结果里面,只提供了size来限制返回,并没有类似offset和limit的参数来支持分页,
2017-04-28 19:03:13 2858
最近工作中遇到ElasticSearch一些问题总结
最近在使用ElasticSearch来查询我们的一些实时数据,中间也遇到不少的问题,今天在此简单总结记录一下。es的功能的确十分强大,大部分数据库能实现的需求,基本在es里面都能实现,当然两者都有一些特殊的功能,是双方不能实现或者不容易实现的。案例一:es单个字段分组后,分页是个小坑,因为分组结果里面,只提供了size来限制返回,并没有类似offset和limi...
2017-04-28 18:53:55 611
原创 ES-Hadoop插件介绍
上篇文章了,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储系统,
2017-04-27 20:34:17 13689 1
ES-Hadoop插件介绍
上篇文章,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储...
2017-04-27 18:07:30 247
原创 ElasticSearch里面如何分组后根据sum值排序
ElasticSearch里面的聚合机制非常灵活和强大,今天我们来看下如何在ElasticSearch里面实现分组后,根据sum值进行排序?类似的数据库SQL如下:select id,sum(c1) as c1 , sum(c2) as c2 from table1 group id order by c1 desc, c2 asc这是一个比较常见的统计需求,在es也能比较轻松的实现
2017-04-24 18:28:25 32873 9
ElasticSearch里面如何分组后根据sum值排序
ElasticSearch里面的聚合机制非常灵活和强大,今天我们来看下如何在ElasticSearch里面实现分组后,根据sum值进行排序?类似的数据库SQL如下:[code="java"]select id,sum(c1) as c1 , sum(c2) as c2 from table1 group id order by c1 desc, c2 asc...
2017-04-24 18:26:15 675
原创 解决kibana搜索提示框占位问题
kibana的版本是4.5.3,遇到这个问题比较烦人,使用kibana搜索时,因为自带的autocompelte插件,老是提示用历史的关键词,不能让你自己编辑正在用的输入框,导致搜索内容特别费劲,得用鼠标点击好几下才有可能能使用,火狐,chrome浏览器都试过了,都有这个问题,原来都将就着用,但也不是个办法,今天google了一把解决了,需要给页面添加一个css样式即可: ki
2017-04-21 16:18:20 1721
解决kibana搜索提示框占位问题
kibana的版本是4.5.3,遇到这个问题比较烦人,使用kibana搜索时,因为自带的autocompelte插件,老是提示用历史的关键词,不能让你自己编辑正在用的输入框,导致搜索内容特别费劲,得用鼠标点击好几下才有可能能使用,火狐,chrome浏览器都试过了,都有这个问题,原来都将就着用,但也不是个办法,今天google了一把解决了,需要给页面添加一个css样式即可:[img]...
2017-04-21 16:08:10 98
原创 spark sql 快速体验调试
spark sql提供了更快的查询性能,如何能够更快的体验,开发和调试spark sql呢?按照正规的步骤我们一般会集成hive,然后使用hive的元数据查询hive表进行操作,这样以来我们还需要考虑跟hive相关的东西,如果我们仅仅是学习spark sql查询功能,那么仅仅使用IDEA的IDE环境即可,而且能够在win上快速体验,不需要hive数据仓库,我们直接使用数组造点数据,然后转成DF,最
2017-04-13 17:20:24 3084
spark sql 快速体验调试
spark sql提供了更快的查询性能,如何能够更快的体验,开发和调试spark sql呢?按照正规的步骤我们一般会集成hive,然后使用hive的元数据查询hive表进行操作,这样以来我们还需要考虑跟hive相关的东西,如果我们仅仅是学习spark sql查询功能,那么仅仅使用IDEA的IDE环境即可,而且能够在win上快速体验,不需要hive数据仓库,我们直接使用数组造点数据,然后转成DF,最...
2017-04-13 16:40:53 195
spark on yarn 如何集成elasticsearch
随着spark越来越流行,我们的很多组件都有可能和spark集成,比如说spark处理完的数据写入mysql,redis,或者hbase,elasticsearch,spark本身不包含db的依赖的,这就需要自己解决依赖的jar包,这里大致有两种处理思路处理依赖问题:(1)使用maven将整个依赖打成一个fat的jar,这样所有的依赖都会在一个jar包,这样的好处就是一个jar包包含所...
2017-04-11 16:16:44 138
原创 spark on yarn 如何集成elasticsearch
随着spark越来越流行,我们的很多组件都有可能和spark集成,比如说spark处理完的数据写入mysql,redis,或者hbase,elasticsearch,spark本身不包含db的依赖的,这就需要自己解决依赖的jar包,这里大致有两种处理思路处理依赖问题:(1)使用maven将整个依赖打成一个fat的jar,这样所有的依赖都会在一个jar包,这样的好处就是一个jar包包含所有依
2017-04-11 16:08:03 2390
原创 如何在Scala中读取Hadoop集群上的gz压缩文件
存在Hadoop集群上的文件,大部分都会经过压缩,如果是压缩后的文件,我们直接在应用程序中如何读取里面的数据?答案是肯定的,但是比普通的文本读取要稍微复杂一点,需要使用到Hadoop的压缩工具类支持,比如处理gz,snappy,lzo,bz压缩的,前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。本次就给出一个读取gz压缩文件的例子核心代码:def readHdfsWrit
2017-04-05 18:53:47 3049
如何在Scala中读取Hadoop集群上的gz压缩文件
存在Hadoop集群上的文件,大部分都会经过压缩,如果是压缩后的文件,我们直接在应用程序中如何读取里面的数据?答案是肯定的,但是比普通的文本读取要稍微复杂一点,需要使用到Hadoop的压缩工具类支持,比如处理gz,snappy,lzo,bz压缩的,前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。本次就给出一个读取gz压缩文件的例子核心代码:[code=...
2017-04-05 18:51:13 450
ElasticSearch里面关于日期的存储方式
在ElasticSearch里面最常用的就是时间字段了,经常会在群里看到一些小伙伴提出有关时间的问题,为什么es查询的时间跟我实际看到的时间差8个小时呢。如果我们了解了ElasticSearch底层的时间存储方式就会比较容易的理解这个问题。下面散仙先普及下时区的知识,想必大家也不陌生学过地理的同学都知道全球有24个时区每个时区的跨度是经度15度,相较于两地时间表,可以显示世界各...
2017-04-01 14:02:07 421
原创 ElasticSearch里面关于日期的存储方式
在ElasticSearch里面最常用的就是时间字段了,经常会在群里看到一些小伙伴提出有关时间的问题,为什么es查询的时间跟我实际看到的时间差8个小时呢。如果我们了解了ElasticSearch底层的时间存储方式就会比较容易的理解这个问题。下面散仙先普及下时区的知识,想必大家也不陌生学过地理的同学都知道全球有24个时区每个时区的跨度是经度15度,相较于两地时间表,可以显示世界各时区
2017-04-01 13:59:32 19609
protobuf-2.5.0.tar.gz
2015-06-24
luke4.5的jar包
2013-10-29
lucene的索引工具
2013-07-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人