- 博客(5)
- 资源 (6)
- 收藏
- 关注
转载 Spark 2.0介绍:从RDD API迁移到DataSet API
RDD迁移到DataSetDataSet API将RDD和DataFrame两者的优点整合起来,DataSet中的许多API模仿了RDD的API,虽然两者的实现很不一样。所以大多数调用RDD API编写的程序可以很容易地迁移到DataSet API中,下面我将简单地展示几个片段来说明如何将RDD编写的程序迁移到DataSet。1、加载文件RDDval rdd = sparkCont
2017-01-23 18:44:58 396
转载 spark 输出结果压缩(gz)
如果不想往下看,可以直接看结果:maxCallRdd.repartition(3).saveAsTextFile(path,GzipCodec.class); 恩,没错。就只这么一行简单的代码实现了gz压缩,但是为什么网上一直没找到呢,这个我不太清楚, 可能是他们没碰到吧。 最近项目的需求,其实很简单,就是将输出结果以.gz的格式压缩,每个压缩包的大小不能超过100M,而且压缩包的名称也
2017-01-23 11:18:55 4661
原创 HIVE 语句执行 中报错:Java heap space
1、报错信息Diagnostic Messages for this Task:Error: Java heap spaceFAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask2、根据提示加大了 HADOOP_HEAP 设置,但是错误依旧;3、
2017-01-23 11:13:40 2794
原创 如何使用shell从一个文件中取出不在另一个文件中的内容
本文展示如何利用shell从一个文件中,(按行)找出不在另一个文件中的内容。#!/bin/bash#@filename checkAddWord.sh#allword.txt 存放总词库(每行一个)#newword.txt 存放新增词(每行一个)#newword.add.txt 在cygwin中执行sh checkAddWord.
2017-01-23 11:05:02 3229
原创 hive中数据去重,union,交集和并集等操作语句总结
insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by sort_word) as rn from sto
2017-01-23 10:59:25 23687
A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining
2014-10-15
Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach
2014-10-15
Understanding Student Behaviors in Online Classroom_Data Scientific Approach
2014-10-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人