2016年12月_hjw199089

12月 10月 09月 07月

原创 ssh多次登录免密

在~/.ssh/config 文件加入Host *ControlMaster autoControlPath ~/.ssh/master-%r@%h:%p

2016-12-12 17:02:54 582

原创 IDEA Java/Scala混合项目maven打包

转自（多谢分享）：http://www.voidcn.com/blog/rongyongfeikai2/article/p-5966631.html1.在建立Maven项目时，选择骨架为maven-archetype-quickstart2.pom文件内容为：<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi...

2016-12-11 12:15:58 1606

原创 spark-DataFrame学习记录-[3]以Json字符串构建RDD转DF

简介spark-DataFrame学习记录-[3]以Json字符串构建RDD转DF（1）字符串中$闭包自由变值（2）以Json字符串构建RDD转DF参考文档：http://spark.apache.org/docs/latest/sql-programming-guide.htmlpackage com.dt.spark.main.DataFrameLearnimport org.

2016-12-09 18:08:17 7729

原创 spark-DataFrame学习记录-[2]解决spark-dataframe的JOIN操作之后产生重复列（Reference '***' is ambiguous问题解决）

【1】转帖部分转自：http://blog.csdn.net/sparkexpert/article/details/52837269如分别创建两个DF，其结果如下：val df = sc.parallelize(Array( ("one", "A", 1), ("one", "B", 2), ("two", "A", 3), ("two", "B", 4))

2016-12-09 10:26:32 12633

转载 Spark SQL通过JDBC连接MySQL读写数据

Spark SQL通过JDBC连接MySQL读写数据来源:传智播客云计算学科转自：http://heb.itcast.cn/news/20151229/16012088060.shtml?qq-pf-to=pcqq.discussionSpark SQL通过JDBC连接MySQL读写数据Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFr

2016-12-08 18:27:27 7235 1

原创 RDD基础学习-[5]PairRDD关联函数基础

简介PairRDD间关联API,注意返回值类型 def join[W](other :Tuple2[K, W]) : Tuple2[K, Tuple2[V, W]] def join[W](other : org.apache.spark.rdd.RDD[scala.Tuple2[K, W]], numPartitions : scala.Int) : org.apache.spark.r

2016-12-07 00:28:13 363

转载 hive-随机取样

转自http://daizj.iteye.com/blog/2273426http://lxw1234.com/archives/2015/08/444.htm0-Random sampling 使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。O

2016-12-06 20:02:14 15524

原创 RDD基础学习-[4]PairRDD聚合函数基础

待续。。。package com.dt.spark.main.RDDLearn.PairRDDAggrFunAPIimport org.apache.spark.{SparkConf, SparkContext}/** * Created by on 16/7/17. *///=======================================

2016-12-06 00:46:20 807

原创 RDD基础学习-[3]RDD聚合函数基础

简介[1]aggregate:将RDD元素由类型T聚合成U输出即给定类型U初识值zeroValue 利用Function2[U,T, U]将每个分区中元素聚合成U类型的输出,然后Function2[U, U, U]对分区聚合 defaggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp :scala.Func

2016-12-05 23:50:49 996

原创 RDD基础学习-[2]RDD分区

简介[1]coalesce:对RDD重新分区def coalesce(numPartitions : scala.Int, shuffle : scala.Boolean = { /* compiledcode */ })(implicit ord : scala.Ordering[T](1)若减少分区,直接设置新的分区数即可(2)若增加分区个数,设置shuffle = true 应用:

2016-12-05 22:45:30 496

原创 RDD基础学习-[1]RDD建立与WordCount

简介构建RDD[1]读外部文件: textFile()[2]从scala数据集构建RDD: parallelize()readme.txtI love youPlease waiting for meI will try my best to find youimport org.apache.spark.{SparkConf, Spar

2016-12-05 22:39:42 516

原创 DataFrame转化成RDD-[2]schema法

package com.dt.spark.main.DataFrameToRDDLearnimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.types.{S

2016-12-04 16:26:44 878

原创 DataFrame转化成RDD-[1]反射法

简述DataFrame转化为RDD(1)反射推断包含特定类型的RDD的模式条件:已知模式,即列和列的类型特点:简单\简洁备注:case class 不能和SparkContext同一作用域,也即定义再main 或者object外(2)通过一个编程接口来实现条件:运行前不知道列和列的类型特点:允许构造一个模式,在RDD上应用,不简洁people.txtM

2016-12-04 16:21:38 719

原创 spark-DataFrame学习记录-[1]基础部分

DataFrame简介DataFrame:一个命名列方式组织的分布式数据集,类似于关系数据库中的一个表(1)可以由机构化数据文件得到(2)hive表(3)RDD转化department.json文件{"name":"Develoment Dept","deptId":"1"}{"name":"Personnel Dept","deptId":"2"}{"na

2016-12-04 13:17:56 700