Spark
文章平均质量分 58
天然呆的技术博客
纯天然的技术小呆呆
展开
-
Hive-0.11.0+Spark-0.9.1+shark-0.9.1安装
准备: 下载scala: wgethttp://downloads.typesafe.com/scala/2.11.1/scala-2.11.1.tgz 下载hive wgethttps://archive.apache.org/dist/hive/hive-0.11.0/hive-0.11.0.tar.gz 下载spark: wgethttp://d3kbcqa49mib原创 2014-07-21 15:46:58 · 956 阅读 · 0 评论 -
hbase on spark -use HiveCxt
maven文件 1.7 1.7 UTF-8 2.10.4 1.3.0-cdh5.4.2 2.6.0-cdh5.4.2 1.0.0-cdh5.4.2 com.google.guava guava 16.0 org.apache.spar原创 2015-06-18 10:53:18 · 502 阅读 · 0 评论 -
spark源码分析只: job 全过程
为了研究生命周期,往往需要action触发Job的运行,以RDD的count操作为例来说明 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum count命令实际上触发了SparkContext的runJob方法执行,然后以sum统计job执行的结果 层层跟踪runJob方法 def ru原创 2015-04-30 21:33:49 · 578 阅读 · 0 评论 -
spark-parquet列存储之:数据写入过程源码分析
数据写入过程源码分析原创 2015-04-02 15:31:40 · 5410 阅读 · 0 评论 -
spark-parquet列存储之:文件存储细节之:RowWriteSupport和RecordWriter
writeSupport初始化 RecordWriter初始化原创 2015-04-02 15:06:50 · 1941 阅读 · 0 评论 -
Spark-parquet列存储之:ParquetTableOperations源码分析
ParquetTableOperations ParquetTableScan private class ParquetRowInputFormat InsertIntoParquetTable constructor: case class InsertIntoParquetTable( relation: ParquetRelation, chi原创 2015-04-02 14:08:13 · 1379 阅读 · 0 评论 -
parquet列式存储之:ColumnChunkPageWriteStore源码解析
ColumnChunkPageWriteStore源码解读 Overview ColumnChunkPageWriteStore类是PageWriteStore的一种实现 属性列表 ParquetMetadataConverter parquetMetadataConverter Map writers MessageType schema BytesCom原创 2015-04-02 18:58:20 · 1705 阅读 · 1 评论 -
about command
1,提交任务命令 spark-submit --class com.gridsum.spark.wd.LogReader --master spark://gs-server-1000:7077 spark-wd-logreader-1.0-jar-with-dependencies.jar /rawdata/wd/ /user/raofengyun/wd_all 101原创 2014-09-29 10:32:24 · 489 阅读 · 0 评论 -
spark MLlib-2 data Types
Machine Learning Lib - Data Types MLlib supports local vectors and matrices stored on a single machine, as well as distributed matrices backed by one or more RDDs. Local vectors and local matrices原创 2014-11-27 17:26:21 · 900 阅读 · 0 评论 -
spark学习连接
http://www.cnblogs.com/cenyuhai/p/3775687.html原创 2014-10-28 22:03:23 · 513 阅读 · 0 评论 -
spark常见问题积累
a) 内存溢出,通过set("spark.executor.memory", "8g")解决 b) 各种各样的NonSerializableException,通过set("spark.serializer","org.apache.spark.serializer.KryoSerializer")解决 c) 实现multipleOutput Spa原创 2014-08-08 19:28:46 · 728 阅读 · 0 评论 -
scala语法
1,声明一个可变变量 var mm:String = "emily"; 声明一个只读变量 val gg:String = "sam"; 2,取两个字符串的交叉部分 "heoll".intersect("loppfg");//ol 3,计算 import scala.math._ //需要先导入包 pow(2,4) min(5,3) sq原创 2014-08-10 23:52:50 · 860 阅读 · 0 评论 -
Spark transformation
1,所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。原创 2014-07-30 15:55:04 · 739 阅读 · 0 评论 -
Spark programming guide
spark 程序开发教程原创 2014-07-29 21:42:19 · 954 阅读 · 0 评论 -
Spark官方链接
快速启动spark原创 2014-07-29 18:48:27 · 518 阅读 · 0 评论 -
shark shema query language
drop database if exists mwd ; create database mwd character set UTF8; use mwd; set character set UTF8;原创 2014-07-07 16:48:13 · 813 阅读 · 0 评论 -
shark-0.9.1 安装后测试
CREATE TABLE src(key INT, value STRING); LOAD DATA LOCAL INPATH '${env:HIVE_HOME}/examples/files/kv1.txt' INTO TABLE src; SELECT COUNT(1) FROM src; CREATE TABLE src_cached AS SELECT * FROM SR原创 2014-07-21 15:51:27 · 468 阅读 · 0 评论 -
spark_job_server
note: a) 原来的Spark job提交方式在现在(CDH5.4.2 yarn-client模式)不能有效加载集群中HBase的配置信息,这会造成部分机器上executor(gs-server-10003, 10004, 10005没有安装Zookeeper的节点)无法进行hbase操作,会拖累整个任务的执行。 正确的启动方式要用“--conf spark.executor.e原创 2015-06-20 09:59:55 · 882 阅读 · 0 评论