2017年04月_三劫散仙

原创最近工作中遇到ElasticSearch一些问题总结

最近在使用ElasticSearch来查询我们的一些实时数据，中间也遇到不少的问题，今天在此简单总结记录一下。es的功能的确十分强大，大部分数据库能实现的需求，基本在es里面都能实现，当然两者都有一些特殊的功能，是双方不能实现或者不容易实现的。案例一：es单个字段分组后，分页是个小坑，因为分组结果里面，只提供了size来限制返回，并没有类似offset和limit的参数来支持分页，

2017-04-28 19:03:13 2858

最近工作中遇到ElasticSearch一些问题总结

最近在使用ElasticSearch来查询我们的一些实时数据，中间也遇到不少的问题，今天在此简单总结记录一下。es的功能的确十分强大，大部分数据库能实现的需求，基本在es里面都能实现，当然两者都有一些特殊的功能，是双方不能实现或者不容易实现的。案例一：es单个字段分组后，分页是个小坑，因为分组结果里面，只提供了size来限制返回，并没有类似offset和limi...

2017-04-28 18:53:55 611

原创 ES-Hadoop插件介绍

上篇文章了，写了使用spark集成es框架，并向es写入数据，虽然能够成功，但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅，今天我们就来认识一下ES-Hadoop这个框架。我们都知道Hadoop是标准的大数据生态代表，里面有非常多的组件来处理不同类型或者场景下的数据，Hadoop的基础组件是YARN,HDFS,MapReduce，我们都知道HDFS是可靠的分布式存储系统，

2017-04-27 20:34:17 13689 1

ES-Hadoop插件介绍

上篇文章，写了使用spark集成es框架，并向es写入数据，虽然能够成功，但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅，今天我们就来认识一下ES-Hadoop这个框架。我们都知道Hadoop是标准的大数据生态代表，里面有非常多的组件来处理不同类型或者场景下的数据，Hadoop的基础组件是YARN,HDFS,MapReduce，我们都知道HDFS是可靠的分布式存储...

2017-04-27 18:07:30 247

原创 ElasticSearch里面如何分组后根据sum值排序

ElasticSearch里面的聚合机制非常灵活和强大，今天我们来看下如何在ElasticSearch里面实现分组后，根据sum值进行排序？类似的数据库SQL如下：select id,sum(c1) as c1 , sum(c2) as c2 from table1 group id order by c1 desc, c2 asc这是一个比较常见的统计需求，在es也能比较轻松的实现

2017-04-24 18:28:25 32873 9

ElasticSearch里面如何分组后根据sum值排序

ElasticSearch里面的聚合机制非常灵活和强大，今天我们来看下如何在ElasticSearch里面实现分组后，根据sum值进行排序？类似的数据库SQL如下：[code="java"]select id,sum(c1) as c1 , sum(c2) as c2 from table1 group id order by c1 desc, c2 asc...

2017-04-24 18:26:15 675

原创解决kibana搜索提示框占位问题

kibana的版本是4.5.3，遇到这个问题比较烦人，使用kibana搜索时，因为自带的autocompelte插件，老是提示用历史的关键词，不能让你自己编辑正在用的输入框，导致搜索内容特别费劲，得用鼠标点击好几下才有可能能使用，火狐，chrome浏览器都试过了，都有这个问题，原来都将就着用，但也不是个办法，今天google了一把解决了，需要给页面添加一个css样式即可： ki

2017-04-21 16:18:20 1721

解决kibana搜索提示框占位问题

kibana的版本是4.5.3，遇到这个问题比较烦人，使用kibana搜索时，因为自带的autocompelte插件，老是提示用历史的关键词，不能让你自己编辑正在用的输入框，导致搜索内容特别费劲，得用鼠标点击好几下才有可能能使用，火狐，chrome浏览器都试过了，都有这个问题，原来都将就着用，但也不是个办法，今天google了一把解决了，需要给页面添加一个css样式即可：[img]...

2017-04-21 16:08:10 98

spark sql提供了更快的查询性能，如何能够更快的体验，开发和调试spark sql呢？按照正规的步骤我们一般会集成hive，然后使用hive的元数据查询hive表进行操作，这样以来我们还需要考虑跟hive相关的东西，如果我们仅仅是学习spark sql查询功能，那么仅仅使用IDEA的IDE环境即可，而且能够在win上快速体验，不需要hive数据仓库，我们直接使用数组造点数据，然后转成DF，最

2017-04-13 17:20:24 3084

spark sql 快速体验调试

spark sql提供了更快的查询性能，如何能够更快的体验，开发和调试spark sql呢？按照正规的步骤我们一般会集成hive，然后使用hive的元数据查询hive表进行操作，这样以来我们还需要考虑跟hive相关的东西，如果我们仅仅是学习spark sql查询功能，那么仅仅使用IDEA的IDE环境即可，而且能够在win上快速体验，不需要hive数据仓库，我们直接使用数组造点数据，然后转成DF，最...

2017-04-13 16:40:53 195

spark on yarn 如何集成elasticsearch

随着spark越来越流行，我们的很多组件都有可能和spark集成，比如说spark处理完的数据写入mysql，redis，或者hbase，elasticsearch，spark本身不包含db的依赖的，这就需要自己解决依赖的jar包，这里大致有两种处理思路处理依赖问题：（1）使用maven将整个依赖打成一个fat的jar，这样所有的依赖都会在一个jar包，这样的好处就是一个jar包包含所...

2017-04-11 16:16:44 138

原创 spark on yarn 如何集成elasticsearch

随着spark越来越流行，我们的很多组件都有可能和spark集成，比如说spark处理完的数据写入mysql，redis，或者hbase，elasticsearch，spark本身不包含db的依赖的，这就需要自己解决依赖的jar包，这里大致有两种处理思路处理依赖问题：（1）使用maven将整个依赖打成一个fat的jar，这样所有的依赖都会在一个jar包，这样的好处就是一个jar包包含所有依

2017-04-11 16:08:03 2390

原创如何在Scala中读取Hadoop集群上的gz压缩文件

存在Hadoop集群上的文件，大部分都会经过压缩，如果是压缩后的文件，我们直接在应用程序中如何读取里面的数据？答案是肯定的，但是比普通的文本读取要稍微复杂一点，需要使用到Hadoop的压缩工具类支持，比如处理gz，snappy，lzo，bz压缩的，前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。本次就给出一个读取gz压缩文件的例子核心代码：def readHdfsWrit

2017-04-05 18:53:47 3049

如何在Scala中读取Hadoop集群上的gz压缩文件

存在Hadoop集群上的文件，大部分都会经过压缩，如果是压缩后的文件，我们直接在应用程序中如何读取里面的数据？答案是肯定的，但是比普通的文本读取要稍微复杂一点，需要使用到Hadoop的压缩工具类支持，比如处理gz，snappy，lzo，bz压缩的，前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。本次就给出一个读取gz压缩文件的例子核心代码：[code=...

2017-04-05 18:51:13 450

ElasticSearch里面关于日期的存储方式

在ElasticSearch里面最常用的就是时间字段了，经常会在群里看到一些小伙伴提出有关时间的问题，为什么es查询的时间跟我实际看到的时间差8个小时呢。如果我们了解了ElasticSearch底层的时间存储方式就会比较容易的理解这个问题。下面散仙先普及下时区的知识，想必大家也不陌生学过地理的同学都知道全球有24个时区每个时区的跨度是经度15度，相较于两地时间表，可以显示世界各...

2017-04-01 14:02:07 421

原创 ElasticSearch里面关于日期的存储方式

在ElasticSearch里面最常用的就是时间字段了，经常会在群里看到一些小伙伴提出有关时间的问题，为什么es查询的时间跟我实际看到的时间差8个小时呢。如果我们了解了ElasticSearch底层的时间存储方式就会比较容易的理解这个问题。下面散仙先普及下时区的知识，想必大家也不陌生学过地理的同学都知道全球有24个时区每个时区的跨度是经度15度，相较于两地时间表，可以显示世界各时区

2017-04-01 13:59:32 19609

三劫散仙

原创最近工作中遇到ElasticSearch一些问题总结

最近工作中遇到ElasticSearch一些问题总结

原创 ES-Hadoop插件介绍

ES-Hadoop插件介绍

原创 ElasticSearch里面如何分组后根据sum值排序

ElasticSearch里面如何分组后根据sum值排序

原创解决kibana搜索提示框占位问题

解决kibana搜索提示框占位问题

原创 spark sql 快速体验调试

spark sql 快速体验调试

spark on yarn 如何集成elasticsearch

原创 spark on yarn 如何集成elasticsearch

原创如何在Scala中读取Hadoop集群上的gz压缩文件

如何在Scala中读取Hadoop集群上的gz压缩文件

ElasticSearch里面关于日期的存储方式

原创 ElasticSearch里面关于日期的存储方式

protobuf-2.5.0.tar.gz

hadoop插件

luke4.6工具

eclipse插件

luke4.5的jar包

Access驱动

lucene4.3工具类

luke4.4索引查看工具

向LUCENE搜索引擎中加人中文同义词查询

lucene的索引工具

solr各个热点功能详解

solr4.3的IK分词器

solrcold与zk集群

空空如也