- 博客(16)
- 资源 (17)
- 收藏
- 关注
原创 使用Spark SQL的临时表解决一个小问题
最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可:select * from table where id in (id1,id2,id3,id4,idn)但现在遇到的问题是id条件比较多,大概有几万个,这样量级的in是肯定会出错的
2017-12-28 18:29:24 13848 1
使用Spark SQL的临时表解决一个小问题
最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,然后根据一批id把需要的数据过滤出来,本来是非常简单的需求直接使用下面的伪SQL即可:[code="java"]````select * from table where id in (id1,id2,id3,id4,idn)````[/code]...
2017-12-28 18:27:59 2431
原创 Spark任务两个小问题笔记
今天在用spark处理数据的时候,遇到两个小问题,特此笔记一下。两个问题都与网络交互有关,大致处理场景是,在driver端会提前获取组装一批数据,然后把这些数据发送executor端进行后续处理。问题一:序列化异常driver有一个case class类需要封装一些数据发送到executor上,原来都是scala的类,直接发送到executor上执行没问题,而且也没加序列化
2017-12-26 19:53:47 3089
Spark任务两个小问题笔记
今天在用spark处理数据的时候,遇到两个小问题,特此笔记一下。两个问题都与网络交互有关,大致处理场景是,在driver端会提前获取组装一批数据,然后把这些数据发送executor端进行后续处理。问题一:序列化异常driver有一个case class类需要封装一些数据发送到executor上,原来都是scala的类,直接发送到executor上执行没问...
2017-12-26 19:52:55 178
原创 Spark中foreachPartition和mapPartitions的区别
spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。
2017-12-25 21:31:58 20871 2
Spark中foreachPartition和mapPartitions的区别
spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立...
2017-12-25 21:19:47 1284
原创 理解正常代理与反向代理的区别
我们介绍了Nginx主要用来做反向代理,可能有些朋友并不很清楚什么是反向代理,本篇文章会介绍下反向代理和正向代理的不同之处:(一)正向代理正向代理是一个位于客户端和目标服务器之间的代理服务器(中间服务器)。为了从原始服务器取得内容,客户端向代理服务器发送一个请求,并且指定目标服务器,之后代理向目标服务器转交并且将获得的内容返回给客户端。正向代理的情况下客户端必须要进行一些特别的设置
2017-12-21 10:08:11 1005
原创 理解正常代理与反向代理的区别
[url]http://blog.csdn.net/u010454030/article/details/78860412[/url]
2017-12-21 09:57:45 134
原创 Nginx入门介绍与安装
Nginx是什么?Nginx是俄罗斯人编写的十分轻量级的HTTP和反向代理服务器。发音:"engine X"Nginx能干什么?(1)Http反向代理Nginx 支持正则表达式以区分静态资源或者动态资源,提供性能稳定,并且能够提供配置灵活的转发功能。 ,其中动态资源可以进一步转发给后端的 Proxy Server, 而静态资源则可以在 Nginx 层面使用本地缓存策
2017-12-20 21:50:31 589
Nginx入门介绍与安装
### Nginx是什么?Nginx是俄罗斯人编写的十分轻量级的HTTP和反向代理服务器。发音:"engine X"### Nginx能干什么?#### (1)Http反向代理Nginx 支持正则表达式以区分静态资源或者动态资源,提供性能稳定,并且能够提供配置灵活的转发功能。,其中动态资源可以进一步转发给后端的 Proxy Server, 而静态资源则可...
2017-12-20 21:38:10 100
原创 给centos重新安装yum的base-repo源
如果自己的centos的系统yum源出现问题了,如何才能修复?方式一:使用国内的阿里云镜像(1)把/etc/yum.repos.d/下面所有的源给删除掉了(2)下载镜像# CentOS 5wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-5.repo# Ce
2017-12-14 21:19:19 45449 1
给centos重新安装yum的base-repo源
如果自己的centos的系统yum源出现问题了,如何才能修复?#### 方式一:使用国内的阿里云镜像(1)把/etc/yum.repos.d/下面所有的源给删除掉了(2)下载镜像[code="java"]````# CentOS 5wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors...
2017-12-14 21:06:12 731
Spark Streaming优雅的关闭策略优化
前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。到目前为止还有几个问题:(1)有关spark streaming集成kafka时,如果kafka新增分区, 那么spark streaming程序能不能动态识别到而不用重启?(2)如果需要重启,那么在自己管理offset时,如何才...
2017-12-07 19:26:30 531
原创 Spark Streaming优雅的关闭策略优化
前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Streaming的流程序。到目前为止还有几个问题:(1)有关spark streaming集成kafka时,如果kafka新增分区, 那么spark streaming程序能不能动态识别到而不用重启?(2)如果需要重启,那么在自己管理offset时,如何才能识别到新增的分
2017-12-07 18:37:40 2287
原创 kafka版本不一致导致的一个小问题(二)
背景介绍:我们公司的实时流项目现在用的spark streaming比较多,这里在介绍下版本:spark streaming2.1.0kafka 0.9.0.0spark streaming如果想要集成kafka使用时,必须得使用spark官网提供的依赖包,目前有两种大的kafka分支依赖集成包,他们的一些信息如下:描述信息spark-strea
2017-12-04 21:39:04 9758
kafka版本不一致导致的一个小问题(二)
背景介绍:我们公司的实时流项目现在用的spark streaming比较多,这里在介绍下版本:spark streaming2.1.0kafka 0.9.0.0spark streaming如果想要集成kafka使用时,必须得使用spark官网提供的依赖包,目前有两种大的kafka分支依赖集成包,他们的一些信息如下:[code="java"]描述...
2017-12-04 21:37:56 1508
protobuf-2.5.0.tar.gz
2015-06-24
luke4.5的jar包
2013-10-29
lucene的索引工具
2013-07-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人