Spark
文章平均质量分 58
天然呆的技术博客
纯天然的技术小呆呆
展开
-
Hive-0.11.0+Spark-0.9.1+shark-0.9.1安装
准备:下载scala:wgethttp://downloads.typesafe.com/scala/2.11.1/scala-2.11.1.tgz 下载hivewgethttps://archive.apache.org/dist/hive/hive-0.11.0/hive-0.11.0.tar.gz 下载spark:wgethttp://d3kbcqa49mib原创 2014-07-21 15:46:58 · 956 阅读 · 0 评论 -
hbase on spark -use HiveCxt
maven文件 1.7 1.7 UTF-8 2.10.4 1.3.0-cdh5.4.2 2.6.0-cdh5.4.2 1.0.0-cdh5.4.2 com.google.guava guava 16.0 org.apache.spar原创 2015-06-18 10:53:18 · 502 阅读 · 0 评论 -
spark源码分析只: job 全过程
为了研究生命周期,往往需要action触发Job的运行,以RDD的count操作为例来说明def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sumcount命令实际上触发了SparkContext的runJob方法执行,然后以sum统计job执行的结果 层层跟踪runJob方法 def ru原创 2015-04-30 21:33:49 · 578 阅读 · 0 评论 -
spark-parquet列存储之:数据写入过程源码分析
数据写入过程源码分析原创 2015-04-02 15:31:40 · 5410 阅读 · 0 评论 -
spark-parquet列存储之:文件存储细节之:RowWriteSupport和RecordWriter
writeSupport初始化RecordWriter初始化原创 2015-04-02 15:06:50 · 1941 阅读 · 0 评论 -
Spark-parquet列存储之:ParquetTableOperations源码分析
ParquetTableOperationsParquetTableScanprivate class ParquetRowInputFormatInsertIntoParquetTableconstructor:case class InsertIntoParquetTable( relation: ParquetRelation, chi原创 2015-04-02 14:08:13 · 1379 阅读 · 0 评论 -
parquet列式存储之:ColumnChunkPageWriteStore源码解析
ColumnChunkPageWriteStore源码解读OverviewColumnChunkPageWriteStore类是PageWriteStore的一种实现属性列表ParquetMetadataConverter parquetMetadataConverterMap writers MessageType schemaBytesCom原创 2015-04-02 18:58:20 · 1705 阅读 · 1 评论 -
about command
1,提交任务命令spark-submit --class com.gridsum.spark.wd.LogReader --master spark://gs-server-1000:7077 spark-wd-logreader-1.0-jar-with-dependencies.jar /rawdata/wd/ /user/raofengyun/wd_all 101原创 2014-09-29 10:32:24 · 489 阅读 · 0 评论 -
spark MLlib-2 data Types
Machine Learning Lib - Data TypesMLlib supports local vectors and matrices stored on a single machine, as well as distributed matrices backed by one or more RDDs. Local vectors and local matrices原创 2014-11-27 17:26:21 · 901 阅读 · 0 评论 -
spark学习连接
http://www.cnblogs.com/cenyuhai/p/3775687.html原创 2014-10-28 22:03:23 · 513 阅读 · 0 评论 -
spark常见问题积累
a) 内存溢出,通过set("spark.executor.memory", "8g")解决b) 各种各样的NonSerializableException,通过set("spark.serializer","org.apache.spark.serializer.KryoSerializer")解决c) 实现multipleOutputSpa原创 2014-08-08 19:28:46 · 728 阅读 · 0 评论 -
scala语法
1,声明一个可变变量var mm:String = "emily"; 声明一个只读变量val gg:String = "sam";2,取两个字符串的交叉部分"heoll".intersect("loppfg");//ol3,计算import scala.math._ //需要先导入包pow(2,4)min(5,3)sq原创 2014-08-10 23:52:50 · 860 阅读 · 0 评论 -
Spark transformation
1,所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。原创 2014-07-30 15:55:04 · 739 阅读 · 0 评论 -
Spark programming guide
spark 程序开发教程原创 2014-07-29 21:42:19 · 954 阅读 · 0 评论 -
Spark官方链接
快速启动spark原创 2014-07-29 18:48:27 · 518 阅读 · 0 评论 -
shark shema query language
drop database if exists mwd ;create database mwd character set UTF8;use mwd;set character set UTF8;原创 2014-07-07 16:48:13 · 813 阅读 · 0 评论 -
shark-0.9.1 安装后测试
CREATE TABLE src(key INT, value STRING);LOAD DATA LOCAL INPATH '${env:HIVE_HOME}/examples/files/kv1.txt' INTO TABLE src;SELECT COUNT(1) FROM src;CREATE TABLE src_cached AS SELECT * FROM SR原创 2014-07-21 15:51:27 · 468 阅读 · 0 评论 -
spark_job_server
note:a) 原来的Spark job提交方式在现在(CDH5.4.2 yarn-client模式)不能有效加载集群中HBase的配置信息,这会造成部分机器上executor(gs-server-10003, 10004, 10005没有安装Zookeeper的节点)无法进行hbase操作,会拖累整个任务的执行。正确的启动方式要用“--conf spark.executor.e原创 2015-06-20 09:59:55 · 882 阅读 · 0 评论