- 博客(14)
- 资源 (26)
- 收藏
- 关注
原创 ssh多次登录免密
在~/.ssh/config 文件加入Host *ControlMaster autoControlPath ~/.ssh/master-%r@%h:%p
2016-12-12 17:02:54 582
原创 IDEA Java/Scala混合项目maven打包
转自(多谢分享):http://www.voidcn.com/blog/rongyongfeikai2/article/p-5966631.html1.在建立Maven项目时,选择骨架为maven-archetype-quickstart2.pom文件内容为:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi...
2016-12-11 12:15:58 1606
原创 spark-DataFrame学习记录-[3]以Json字符串构建RDD转DF
简介spark-DataFrame学习记录-[3]以Json字符串构建RDD转DF(1)字符串中$闭包自由变值(2)以Json字符串构建RDD转DF参考文档:http://spark.apache.org/docs/latest/sql-programming-guide.htmlpackage com.dt.spark.main.DataFrameLearnimport org.
2016-12-09 18:08:17 7729
原创 spark-DataFrame学习记录-[2]解决spark-dataframe的JOIN操作之后产生重复列(Reference '***' is ambiguous问题解决)
【1】转帖部分转自:http://blog.csdn.net/sparkexpert/article/details/52837269如分别创建两个DF,其结果如下:val df = sc.parallelize(Array( ("one", "A", 1), ("one", "B", 2), ("two", "A", 3), ("two", "B", 4))
2016-12-09 10:26:32 12633
转载 Spark SQL通过JDBC连接MySQL读写数据
Spark SQL通过JDBC连接MySQL读写数据来源:传智播客云计算学科转自:http://heb.itcast.cn/news/20151229/16012088060.shtml?qq-pf-to=pcqq.discussionSpark SQL通过JDBC连接MySQL读写数据Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFr
2016-12-08 18:27:27 7235 1
原创 RDD基础学习-[5]PairRDD关联函数基础
简介PairRDD间关联API,注意返回值类型 def join[W](other :Tuple2[K, W]) : Tuple2[K, Tuple2[V, W]] def join[W](other : org.apache.spark.rdd.RDD[scala.Tuple2[K, W]], numPartitions : scala.Int) : org.apache.spark.r
2016-12-07 00:28:13 363
转载 hive-随机取样
转自http://daizj.iteye.com/blog/2273426http://lxw1234.com/archives/2015/08/444.htm0-Random sampling 使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。O
2016-12-06 20:02:14 15524
原创 RDD基础学习-[4]PairRDD聚合函数基础
待续。。。package com.dt.spark.main.RDDLearn.PairRDDAggrFunAPIimport org.apache.spark.{SparkConf, SparkContext}/** * Created by on 16/7/17. *///=======================================
2016-12-06 00:46:20 807
原创 RDD基础学习-[3]RDD聚合函数基础
简介[1]aggregate:将RDD元素由类型T聚合成U输出 即给定类型U初识值zeroValue 利用Function2[U,T, U]将每个分区中元素聚合成U类型的输出,然后Function2[U, U, U]对分区聚合 defaggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp :scala.Func
2016-12-05 23:50:49 996
原创 RDD基础学习-[2]RDD分区
简介[1]coalesce:对RDD重新分区def coalesce(numPartitions : scala.Int, shuffle : scala.Boolean = { /* compiledcode */ })(implicit ord : scala.Ordering[T](1)若减少分区,直接设置新的分区数即可(2)若增加分区个数,设置shuffle = true 应用:
2016-12-05 22:45:30 496
原创 RDD基础学习-[1]RDD建立与WordCount
简介构建RDD[1]读外部文件: textFile()[2]从scala数据集构建RDD: parallelize()readme.txtI love youPlease waiting for meI will try my best to find youimport org.apache.spark.{SparkConf, Spar
2016-12-05 22:39:42 516
原创 DataFrame转化成RDD-[2]schema法
package com.dt.spark.main.DataFrameToRDDLearnimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.types.{S
2016-12-04 16:26:44 878
原创 DataFrame转化成RDD-[1]反射法
简述DataFrame转化为RDD(1)反射推断包含特定类型的RDD的模式 条件:已知模式,即列和列的类型 特点:简单\简洁 备注:case class 不能和SparkContext同一作用域,也即定义再main 或者object外(2)通过一个编程接口来实现 条件:运行前不知道列和列的类型 特点:允许构造一个模式,在RDD上应用,不简洁people.txtM
2016-12-04 16:21:38 719
原创 spark-DataFrame学习记录-[1]基础部分
DataFrame简介DataFrame:一个命名列方式组织的分布式数据集,类似于关系数据库中的一个表(1)可以由机构化数据文件得到(2)hive表(3)RDD转化department.json文件{"name":"Develoment Dept","deptId":"1"}{"name":"Personnel Dept","deptId":"2"}{"na
2016-12-04 13:17:56 700
apache calcite论文
2018-06-21
The Definitive ANTLR4Reference 学习笔记
2017-12-24
Java Threads and the Concurrency Utilities
2017-12-07
The+Definitive+ANTLR+4+Reference 学习笔记word
2017-11-17
SMO英文原文
2017-07-23
SEED-XDS510Plus Emulator for CCS4.x&Above.exe
2014-07-19
seed-xds560plus emulator for ccs4.x(and above).zip
2014-07-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人