2016年06月_fjr_huoniao

11月 09月 08月 07月 06月 05月 04月 03月 01月

原创 spark sql 使用hive作为数据源

本来是很简单的一件事，代码也不复杂，如下：代码：public class LocationFromHiveDataSource { @SuppressWarnings("deprecation") public static void main(String[] args) { // 首先还是创建SparkConf SparkCo

2016-06-29 15:51:39 5280

原创基于HDFS,Spark Stream的实时统计

最近在搞一个小功能，具体要求是：数据到了hdfs，然后统计。需求很简，程序实现也挺简单的，但是目录有点复杂，如base目录下面有/业务/省/yyyyMMdd/h/aa.txt文件如果是按照之前的约定的方式的话，是可以实现的，但是这个文件夹太复杂了，所以按照约定的方式来弄好像难度也挺复杂的，所以这种方法我放弃了。还有一种方案就是把文件目录放到kafka中，然后订阅kafka的内容，取得了之后将参

2016-06-27 17:15:30 3093

原创 spark on yarn 的那些坑

在公司6个节点的测试集群运行得好好的，结果也很正常，然后放上60个节点的预生产环境，我勒个擦，搞了我两天，主要是生产环境的那些家伙不配合，一个问题搞得拖啊拖，首先是安全认证问题，截取一两个有意义的吧： 1.没有认证Caused by: java.io.IOException: javax.security.sasl.SaslException: GSS initiate fa

2016-06-08 19:44:20 92349 10

原创 spark 的groupby

其实我一直很不明白的是，为什么有groupByKey了还要有groupBy,今天被一位同事问到了怎么对rdd分组的时候，这个疑问算是彻底惹恼我了，我一定要搞清楚这东西怎么用的，嗯，对比一下groupByKey（）函数，无参数，pairRdd之际调用即可返回根据分组好的内容，如JavaPairRDD>，但是这个必须是JavaPairRDD类型，也就是说必须是元组的key，value形式。但是Rd

2016-06-01 14:21:41 14737