自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

三劫散仙

有问题关注微信公众号:我是攻城师(woshigcs)

  • 博客(16)
  • 资源 (17)
  • 收藏
  • 关注

原创 使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可:select * from table where id in (id1,id2,id3,id4,idn)但现在遇到的问题是id条件比较多,大概有几万个,这样量级的in是肯定会出错的

2017-12-28 18:29:24 13848 1

使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可:[code="java"]````select * from table where id in (id1,id2,id3,id4,idn)````[/code]...

2017-12-28 18:27:59 2431

原创 Spark任务两个小问题笔记

今天在用spark处理数据的时候,遇到两个小问题,特此笔记一下。两个问题都与网络交互有关,大致处理场景是,在driver端会提前获取组装一批数据,然后把这些数据发送executor端进行后续处理。问题一:序列化异常driver有一个case class类需要封装一些数据发送到executor上,原来都是scala的类,直接发送到executor上执行没问题,而且也没加序列化

2017-12-26 19:53:47 3089

Spark任务两个小问题笔记

今天在用spark处理数据的时候,遇到两个小问题,特此笔记一下。两个问题都与网络交互有关,大致处理场景是,在driver端会提前获取组装一批数据,然后把这些数据发送executor端进行后续处理。问题一:序列化异常driver有一个case class类需要封装一些数据发送到executor上,原来都是scala的类,直接发送到executor上执行没问...

2017-12-26 19:52:55 178

原创 Spark中foreachPartition和mapPartitions的区别

spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。

2017-12-25 21:31:58 20871 2

Spark中foreachPartition和mapPartitions的区别

spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立...

2017-12-25 21:19:47 1284

原创 理解正常代理与反向代理的区别

我们介绍了Nginx主要用来做反向代理,可能有些朋友并不很清楚什么是反向代理,本篇文章会介绍下反向代理和正向代理的不同之处:(一)正向代理正向代理是一个位于客户端和目标服务器之间的代理服务器(中间服务器)。为了从原始服务器取得内容,客户端向代理服务器发送一个请求,并且指定目标服务器,之后代理向目标服务器转交并且将获得的内容返回给客户端。正向代理的情况下客户端必须要进行一些特别的设置

2017-12-21 10:08:11 1005

原创 理解正常代理与反向代理的区别

[url]http://blog.csdn.net/u010454030/article/details/78860412[/url]

2017-12-21 09:57:45 134

原创 Nginx入门介绍与安装

Nginx是什么?Nginx是俄罗斯人编写的十分轻量级的HTTP和反向代理服务器。发音:"engine X"Nginx能干什么?(1)Http反向代理Nginx 支持正则表达式以区分静态资源或者动态资源,提供性能稳定,并且能够提供配置灵活的转发功能。 ,其中动态资源可以进一步转发给后端的 Proxy Server, 而静态资源则可以在 Nginx 层面使用本地缓存策

2017-12-20 21:50:31 589

Nginx入门介绍与安装

### Nginx是什么?Nginx是俄罗斯人编写的十分轻量级的HTTP和反向代理服务器。发音:"engine X"### Nginx能干什么?#### (1)Http反向代理Nginx 支持正则表达式以区分静态资源或者动态资源,提供性能稳定,并且能够提供配置灵活的转发功能。,其中动态资源可以进一步转发给后端的 Proxy Server, 而静态资源则可...

2017-12-20 21:38:10 100

原创 给centos重新安装yum的base-repo源

如果自己的centos的系统yum源出现问题了,如何才能修复?方式一:使用国内的阿里云镜像(1)把/etc/yum.repos.d/下面所有的源给删除掉了(2)下载镜像# CentOS 5wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-5.repo# Ce

2017-12-14 21:19:19 45449 1

给centos重新安装yum的base-repo源

如果自己的centos的系统yum源出现问题了,如何才能修复?#### 方式一:使用国内的阿里云镜像(1)把/etc/yum.repos.d/下面所有的源给删除掉了(2)下载镜像[code="java"]````# CentOS 5wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors...

2017-12-14 21:06:12 731

Spark Streaming优雅的关闭策略优化

前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。到目前为止还有几个问题:(1)有关spark streaming集成kafka时,如果kafka新增分区, 那么spark streaming程序能不能动态识别到而不用重启?(2)如果需要重启,那么在自己管理offset时,如何才...

2017-12-07 19:26:30 531

原创 Spark Streaming优雅的关闭策略优化

前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。到目前为止还有几个问题:(1)有关spark streaming集成kafka时,如果kafka新增分区, 那么spark streaming程序能不能动态识别到而不用重启?(2)如果需要重启,那么在自己管理offset时,如何才能识别到新增的分

2017-12-07 18:37:40 2287

原创 kafka版本不一致导致的一个小问题(二)

背景介绍:我们公司的实时流项目现在用的spark streaming比较多,这里在介绍下版本:spark streaming2.1.0kafka 0.9.0.0spark streaming如果想要集成kafka使用时,必须得使用spark官网提供的依赖包,目前有两种大的kafka分支依赖集成包,他们的一些信息如下:描述信息spark-strea

2017-12-04 21:39:04 9758

kafka版本不一致导致的一个小问题(二)

背景介绍:我们公司的实时流项目现在用的spark streaming比较多,这里在介绍下版本:spark streaming2.1.0kafka 0.9.0.0spark streaming如果想要集成kafka使用时,必须得使用spark官网提供的依赖包,目前有两种大的kafka分支依赖集成包,他们的一些信息如下:[code="java"]描述...

2017-12-04 21:37:56 1508

protobuf-2.5.0.tar.gz

Hadoop2.x安装必须的通信包,google的protobuf协议,google官网已经下载不了了,特地传到此处,供大家使用! 在编译hadoop的时候,是必须要安装这个的,否则编译会失败的

2015-06-24

hadoop插件

基于Hadoop2.2的稳定版本的,eclipse插件,大家以后可以更方便的调试Hadoop程序了。

2013-12-17

luke4.6工具

luke4.6查看索引工具,最新版lucene的查看工具,本人测试过,可以正常使用!

2013-12-05

eclipse插件

hadoop1.2.0的eclipse插件,笔者经过测试可以完美运行,对于刚学习hadoop1。x的同学们,是一份不可多得的好资料。

2013-11-10

luke4.5的jar包

luke4.5的索引查看工具,最新版lucene的索引查看工具,用4.x版本的lucene的朋友们,可以使用luke4.5方便的查看,修改,更新索引了,支持4.5之前的所有lucene索引,有需要的朋友们,下载吧,LZ测试过,可以正常使用。

2013-10-29

Access驱动

jdbc Access驱动,兼容处理03,07+的Access,的增删改查。值得下载

2013-09-23

lucene4.3工具类

lucene4.3增删改查的的一个工具类,对新手来说是一份不可多得的入门资料。

2013-08-15

luke4.4索引查看工具

关于全文检索的最新版Lucene4.4,solr4.4的索引查看工具,新项目的开发的朋友们,可以下载下来,方便查询索引结构。

2013-08-15

向LUCENE搜索引擎中加人中文同义词查询

介绍lucene同义词库的使用,想使用lucene同义词的朋友们,如果不知道原理的可以看下。

2013-08-08

lucene的索引工具

lucene的最新版本的索引查看工具,支持4.x以上的索引查看,分析,非常方便调试,官网只能支持到4.0,本工具支持最新的lucene及solr的4.3版本。

2013-07-18

solr各个热点功能详解

详细介绍了solr中,各个功能的UI页面的使用,以及使用solrj操作solr的代码,比较全面的总结了solr的各个功能点。是不可多得的好资料!

2013-07-11

solr4.3的IK分词器

最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题

2013-06-25

solrcold与zk集群

关于solr4.3solrcloud与zk+tomcat6.x集群,详细描述。

2013-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除