自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

三劫散仙

有问题关注微信公众号:我是攻城师(woshigcs)

  • 博客(16)
  • 资源 (17)
  • 收藏
  • 关注

原创 最近工作中遇到ElasticSearch一些问题总结

最近在使用ElasticSearch来查询我们的一些实时数据,中间也遇到不少的问题,今天在此简单总结记录一下。es的功能的确十分强大,大部分数据库能实现的需求,基本在es里面都能实现,当然两者都有一些特殊的功能,是双方不能实现或者不容易实现的。案例一:es单个字段分组后,分页是个小坑,因为分组结果里面,只提供了size来限制返回,并没有类似offset和limit的参数来支持分页,

2017-04-28 19:03:13 2858

最近工作中遇到ElasticSearch一些问题总结

最近在使用ElasticSearch来查询我们的一些实时数据,中间也遇到不少的问题,今天在此简单总结记录一下。es的功能的确十分强大,大部分数据库能实现的需求,基本在es里面都能实现,当然两者都有一些特殊的功能,是双方不能实现或者不容易实现的。案例一:es单个字段分组后,分页是个小坑,因为分组结果里面,只提供了size来限制返回,并没有类似offset和limi...

2017-04-28 18:53:55 611

原创 ES-Hadoop插件介绍

上篇文章了,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储系统,

2017-04-27 20:34:17 13689 1

ES-Hadoop插件介绍

上篇文章,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储...

2017-04-27 18:07:30 247

原创 ElasticSearch里面如何分组后根据sum值排序

ElasticSearch里面的聚合机制非常灵活和强大,今天我们来看下如何在ElasticSearch里面实现分组后,根据sum值进行排序?类似的数据库SQL如下:select id,sum(c1) as c1 , sum(c2) as c2 from table1 group id order by c1 desc, c2 asc这是一个比较常见的统计需求,在es也能比较轻松的实现

2017-04-24 18:28:25 32873 9

ElasticSearch里面如何分组后根据sum值排序

ElasticSearch里面的聚合机制非常灵活和强大,今天我们来看下如何在ElasticSearch里面实现分组后,根据sum值进行排序?类似的数据库SQL如下:[code="java"]select id,sum(c1) as c1 , sum(c2) as c2 from table1 group id order by c1 desc, c2 asc...

2017-04-24 18:26:15 675

原创 解决kibana搜索提示框占位问题

kibana的版本是4.5.3,遇到这个问题比较烦人,使用kibana搜索时,因为自带的autocompelte插件,老是提示用历史的关键词,不能让你自己编辑正在用的输入框,导致搜索内容特别费劲,得用鼠标点击好几下才有可能能使用,火狐,chrome浏览器都试过了,都有这个问题,原来都将就着用,但也不是个办法,今天google了一把解决了,需要给页面添加一个css样式即可: ki

2017-04-21 16:18:20 1721

解决kibana搜索提示框占位问题

kibana的版本是4.5.3,遇到这个问题比较烦人,使用kibana搜索时,因为自带的autocompelte插件,老是提示用历史的关键词,不能让你自己编辑正在用的输入框,导致搜索内容特别费劲,得用鼠标点击好几下才有可能能使用,火狐,chrome浏览器都试过了,都有这个问题,原来都将就着用,但也不是个办法,今天google了一把解决了,需要给页面添加一个css样式即可:[img]...

2017-04-21 16:08:10 98

原创 spark sql 快速体验调试

spark sql提供了更快的查询性能,如何能够更快的体验,开发和调试spark sql呢?按照正规的步骤我们一般会集成hive,然后使用hive的元数据查询hive表进行操作,这样以来我们还需要考虑跟hive相关的东西,如果我们仅仅是学习spark sql查询功能,那么仅仅使用IDEA的IDE环境即可,而且能够在win上快速体验,不需要hive数据仓库,我们直接使用数组造点数据,然后转成DF,最

2017-04-13 17:20:24 3084

spark sql 快速体验调试

spark sql提供了更快的查询性能,如何能够更快的体验,开发和调试spark sql呢?按照正规的步骤我们一般会集成hive,然后使用hive的元数据查询hive表进行操作,这样以来我们还需要考虑跟hive相关的东西,如果我们仅仅是学习spark sql查询功能,那么仅仅使用IDEA的IDE环境即可,而且能够在win上快速体验,不需要hive数据仓库,我们直接使用数组造点数据,然后转成DF,最...

2017-04-13 16:40:53 195

spark on yarn 如何集成elasticsearch

随着spark越来越流行,我们的很多组件都有可能和spark集成,比如说spark处理完的数据写入mysql,redis,或者hbase,elasticsearch,spark本身不包含db的依赖的,这就需要自己解决依赖的jar包,这里大致有两种处理思路处理依赖问题:(1)使用maven将整个依赖打成一个fat的jar,这样所有的依赖都会在一个jar包,这样的好处就是一个jar包包含所...

2017-04-11 16:16:44 138

原创 spark on yarn 如何集成elasticsearch

随着spark越来越流行,我们的很多组件都有可能和spark集成,比如说spark处理完的数据写入mysql,redis,或者hbase,elasticsearch,spark本身不包含db的依赖的,这就需要自己解决依赖的jar包,这里大致有两种处理思路处理依赖问题:(1)使用maven将整个依赖打成一个fat的jar,这样所有的依赖都会在一个jar包,这样的好处就是一个jar包包含所有依

2017-04-11 16:08:03 2390

原创 如何在Scala中读取Hadoop集群上的gz压缩文件

存在Hadoop集群上的文件,大部分都会经过压缩,如果是压缩后的文件,我们直接在应用程序中如何读取里面的数据?答案是肯定的,但是比普通的文本读取要稍微复杂一点,需要使用到Hadoop的压缩工具类支持,比如处理gz,snappy,lzo,bz压缩的,前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。本次就给出一个读取gz压缩文件的例子核心代码:def readHdfsWrit

2017-04-05 18:53:47 3049

如何在Scala中读取Hadoop集群上的gz压缩文件

存在Hadoop集群上的文件,大部分都会经过压缩,如果是压缩后的文件,我们直接在应用程序中如何读取里面的数据?答案是肯定的,但是比普通的文本读取要稍微复杂一点,需要使用到Hadoop的压缩工具类支持,比如处理gz,snappy,lzo,bz压缩的,前提是首先我们的Hadoop集群得支持上面提到的各种压缩文件。本次就给出一个读取gz压缩文件的例子核心代码:[code=...

2017-04-05 18:51:13 450

ElasticSearch里面关于日期的存储方式

在ElasticSearch里面最常用的就是时间字段了,经常会在群里看到一些小伙伴提出有关时间的问题,为什么es查询的时间跟我实际看到的时间差8个小时呢。如果我们了解了ElasticSearch底层的时间存储方式就会比较容易的理解这个问题。下面散仙先普及下时区的知识,想必大家也不陌生学过地理的同学都知道全球有24个时区每个时区的跨度是经度15度,相较于两地时间表,可以显示世界各...

2017-04-01 14:02:07 421

原创 ElasticSearch里面关于日期的存储方式

在ElasticSearch里面最常用的就是时间字段了,经常会在群里看到一些小伙伴提出有关时间的问题,为什么es查询的时间跟我实际看到的时间差8个小时呢。如果我们了解了ElasticSearch底层的时间存储方式就会比较容易的理解这个问题。下面散仙先普及下时区的知识,想必大家也不陌生学过地理的同学都知道全球有24个时区每个时区的跨度是经度15度,相较于两地时间表,可以显示世界各时区

2017-04-01 13:59:32 19609

protobuf-2.5.0.tar.gz

Hadoop2.x安装必须的通信包,google的protobuf协议,google官网已经下载不了了,特地传到此处,供大家使用! 在编译hadoop的时候,是必须要安装这个的,否则编译会失败的

2015-06-24

hadoop插件

基于Hadoop2.2的稳定版本的,eclipse插件,大家以后可以更方便的调试Hadoop程序了。

2013-12-17

luke4.6工具

luke4.6查看索引工具,最新版lucene的查看工具,本人测试过,可以正常使用!

2013-12-05

eclipse插件

hadoop1.2.0的eclipse插件,笔者经过测试可以完美运行,对于刚学习hadoop1。x的同学们,是一份不可多得的好资料。

2013-11-10

luke4.5的jar包

luke4.5的索引查看工具,最新版lucene的索引查看工具,用4.x版本的lucene的朋友们,可以使用luke4.5方便的查看,修改,更新索引了,支持4.5之前的所有lucene索引,有需要的朋友们,下载吧,LZ测试过,可以正常使用。

2013-10-29

Access驱动

jdbc Access驱动,兼容处理03,07+的Access,的增删改查。值得下载

2013-09-23

lucene4.3工具类

lucene4.3增删改查的的一个工具类,对新手来说是一份不可多得的入门资料。

2013-08-15

luke4.4索引查看工具

关于全文检索的最新版Lucene4.4,solr4.4的索引查看工具,新项目的开发的朋友们,可以下载下来,方便查询索引结构。

2013-08-15

向LUCENE搜索引擎中加人中文同义词查询

介绍lucene同义词库的使用,想使用lucene同义词的朋友们,如果不知道原理的可以看下。

2013-08-08

lucene的索引工具

lucene的最新版本的索引查看工具,支持4.x以上的索引查看,分析,非常方便调试,官网只能支持到4.0,本工具支持最新的lucene及solr的4.3版本。

2013-07-18

solr各个热点功能详解

详细介绍了solr中,各个功能的UI页面的使用,以及使用solrj操作solr的代码,比较全面的总结了solr的各个功能点。是不可多得的好资料!

2013-07-11

solr4.3的IK分词器

最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题

2013-06-25

solrcold与zk集群

关于solr4.3solrcloud与zk+tomcat6.x集群,详细描述。

2013-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除