- 博客(4)
- 资源 (10)
- 收藏
- 关注
原创 spark sql 使用hive作为数据源
本来是很简单的一件事,代码也不复杂,如下:代码:public class LocationFromHiveDataSource { @SuppressWarnings("deprecation") public static void main(String[] args) { // 首先还是创建SparkConf SparkCo
2016-06-29 15:51:39 5280
原创 基于HDFS,Spark Stream的实时统计
最近在搞一个小功能,具体要求是:数据到了hdfs,然后统计。需求很简,程序实现也挺简单的,但是目录有点复杂,如base目录下面有/业务/省/yyyyMMdd/h/aa.txt文件如果是按照之前的约定的方式的话,是可以实现的,但是这个文件夹太复杂了,所以按照约定的方式来弄好像难度也挺复杂的,所以这种方法我放弃了。还有一种方案就是把文件目录放到kafka中,然后订阅kafka的内容,取得了之后将参
2016-06-27 17:15:30 3093
原创 spark on yarn 的那些坑
在公司6个节点的测试集群运行得好好的,结果也很正常,然后放上60个节点的预生产环境,我勒个擦,搞了我两天,主要是生产环境的那些家伙不配合,一个问题搞得拖啊拖,首先是安全认证问题,截取一两个有意义的吧: 1.没有认证Caused by: java.io.IOException: javax.security.sasl.SaslException: GSS initiate fa
2016-06-08 19:44:20 92347 10
原创 spark 的groupby
其实我一直很不明白的是,为什么有groupByKey了还要有groupBy,今天被一位同事问到了怎么对rdd分组的时候,这个疑问算是彻底惹恼我了,我一定要搞清楚这东西怎么用的,嗯,对比一下groupByKey()函数,无参数,pairRdd之际调用即可返回根据分组好的内容,如JavaPairRDD>,但是这个必须是JavaPairRDD类型,也就是说必须是元组的key,value形式。但是Rd
2016-06-01 14:21:41 14737
学习scrapy用到的资源
2020-12-13
oracle高手进阶
2012-12-24
oracle高手篇
2012-12-24
oracle进阶(多表)
2012-12-24
oracle入门经典
2012-12-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人