![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 52
power0405hf
这个作者很懒,什么都没留下…
展开
-
Spark pyspark package
1. contentsPySpark是Spark的PythonAPI。 公共类:SparkContext: Spark运行的主要集成类。 它负责与Spark集群的connection,并且负责数据的生成和计算,以及其中的task的调度。RDD:弹性分布式数据集,Spark中的基础抽象,Spark支持对RDD进行两类操作:transformations和actions。根据已经存在的数据集创建翻译 2015-11-12 21:52:21 · 2426 阅读 · 0 评论 -
杀掉YARN上面的SparkSubmit任务
yarn application -kill appid //appid不需要引号就可以结束YARN上面跑的出现异常无法关闭的任务了。 :)原创 2016-01-04 19:34:24 · 25424 阅读 · 1 评论 -
Scala List
Scala里List的设计 Scala List Scala中Array和List的区别 Scala API文档——ListScala中列表非常类似于数组,这意味着,一个列表的所有元素都具有相同的类型,但有两个重要的区别。首先,列表是不可变的,这意味着一个列表的元素可以不被分配来改变。第二,列表表示一个链表,而数组是平坦的。// List of Stringsval fruit:List[S原创 2015-12-18 16:16:37 · 469 阅读 · 0 评论 -
Spark Scala 范例
1.处理HDFS日志文件中错误日志val lines = sc.textFile("hdfs://...") //lines is a org.apache.spark.rdd.MappedRDDval errors = lines.filter(_.startsWith("ERROR")) //errors is a org.apache.spark.rdd.FilterRDDerrors.原创 2015-12-01 19:10:13 · 614 阅读 · 0 评论 -
groupByKey reduceByKey
Spark算子:RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally1.groupByKeydef groupByKey():RDD[( K, Iterable[V]) ]def groupByKey(numPartitions:Int):RDD[(K, Iterable[V])]def groupByKey(partitioner:Par转载 2015-12-03 10:36:10 · 1176 阅读 · 0 评论 -
filter a RDD
How to filter a RDD according to a function based another RDD in Spark? 当输入变得很大时,只有有限的内存,那么应该增加number of splits:val input = List("a,b,c,d","b,c,e","a,c,d","e,g")val splitSize = 10000val numSplits =原创 2015-12-03 16:32:07 · 368 阅读 · 0 评论 -
scala 对大数据量排序求中位数 lookup方法
val rdd=sc.makeRDD(Array(1,8,6,4,9,3,76,4))val sorted = rdd.sortBy(identity).zipWithIndex().map { case (v, idx) => (idx, v)}val count = sorted.count() val median: Double = if (count % 2 == 0) {原创 2016-01-05 21:44:34 · 6668 阅读 · 0 评论 -
Scala spark 向量、矩阵类型
spark向量、矩阵类型转载 2015-12-04 13:58:00 · 3136 阅读 · 0 评论 -
spark 不支持 嵌入RDDs or 用户定义的函数 that refer to other RDDs 【未完待续】
spark does not support nested RDDs or user-defined functions that refer to other RDDs原创 2016-01-06 15:21:33 · 664 阅读 · 0 评论 -
Scala Spark 得到最近一天的数据 重点:join
0.数据val data="""user date item1 item21 2015-12-01 14 5.61 2015-12-01 10 0.61 2015-12-02 8 9.41 2015-12-02 90 1.32 2015-12-01 30 0.32 2015-12-01 89 1.22 2015-12原创 2016-01-22 13:35:17 · 2662 阅读 · 0 评论 -
pair RDD groupByKey countByKey countByValue aggregateByKey reduceByKey 测试
val d = sc.makeRDD(Array(1,2,3,4,5,1,3,5))val dd = d.map(x=>(x,1)) //构造pair RDD, dd:RDD[(Int,Int)]1.groupByKeyval dg = dd.groupByKey() //dg :RDD[(Int, Iterable[Int])]val dgc = dg.collectAsMap //d原创 2015-12-14 19:42:44 · 8696 阅读 · 0 评论 -
Scala pair RDD 统计均值,方差等
val conf = new SparkConf().setAppName("hh") conf.setMaster("local[3]") val sc = new SparkContext(conf)val data = sc.textFile("/home/hadoop4/Desktop/i.txt") .map(_.split("\t")).map(f => f.map(原创 2015-12-15 10:57:49 · 12711 阅读 · 0 评论 -
Spark executor.memory
参考:1.Setting spark.executor.memory problem2.How to set Spark executor memory?3.How to set Apache Spark Executor memorySetting spark.executor.memory problem问题: 在local mode下配置环境出错://出错代码:val conf = new原创 2015-12-04 21:38:25 · 5965 阅读 · 0 评论 -
Lost executor on YARN
1. Lost executor on YARN ALS iterationsdebasish83 Q:During the 4th ALS iteration, I am noticing that one of the executor gets disconnected: 14/08/19 23:40:00 ERROR network.ConnectionManager: Correspon翻译 2016-01-03 16:12:12 · 8318 阅读 · 0 评论 -
Scala 将CSV文件转为RDD
How do I convert csv file to rdd假设csv文件是这种格式:user, topic, hitsom, scala, 120daniel, spark, 803754978, spark, 1我们可以使用第一行来定义一个header class:class SimpleCSVHeader(header:Array[String]) extends Seriali翻译 2016-01-09 16:56:39 · 7694 阅读 · 1 评论 -
Scala Spark 连接 HBase ( IDEA) 调试Spark Standalone
0.下载安装IDEAIDEA主页1.安装Scala插件2.新建工程 打开新工程后,在src文件夹下新建一个文件夹,名为qyTest2,在里面新建一个scala class,把class的类型改为object。 3.设置Project Structure打开File-》Project Structure -》Libraries 加入新的lib(new project lib->java),选择S原创 2015-11-29 14:50:31 · 7817 阅读 · 0 评论 -
Scala aggregate
1.Spark函数讲解:aggregate 2.Example of the Scala aggregate function1.Spark函数讲解:aggregate函数原型:def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U官方文档定义: Aggregate the el翻译 2015-12-17 21:35:54 · 4087 阅读 · 0 评论 -
Scala in Spark 基本操作【未完】
[Apache Spark大数据分析入门(一)(http://www.csdn.net/article/2015-11-25/2826324)spark 笔记 5: SparkContext,SparkConfspark读取hbase Scala 强大的集合数据操作示例 spark中的一些RDD操作以及变换# 创建textFileRDDval textFile = sc.textFile("REA原创 2015-11-29 22:27:05 · 2616 阅读 · 0 评论 -
pyspark 【未完待续】
原文使用python操作spark1.使用命令行在PySpark命令行中,一个特殊的集成在解释器里的SparkContext变量已经建立好,变量名叫做sc,创建自己的SparkContext不会起作用。 * 可以通过–master参数来设置这个上下文连接的master主机 * 也可以通过–py-files参数原创 2015-11-16 21:34:34 · 458 阅读 · 0 评论 -
Spark 调优
英文原文:Tuning Spark中文原文:Spark调优 Advanced Garbage Collection(GC) Tuning JVM内存管理的一些基本知识:Java的Heap(堆)空间分为2部分:Young (新生代)和Old(老生代)。Young generation用来保存生命周期较短的对象(short-lived objects),Old generation用于保存生命周期原创 2015-12-09 13:07:44 · 496 阅读 · 0 评论 -
Scala Hbase 问题汇总 stack overflow
1.object hbase is not a member of package org.apache.hadoop when compiling scala 在Scala工程中使用HBase API,import hbase时, import org.apache.hadoop.hbase出现编译错误解决(大概,没有尝试): 使用sbt构建工程时,添加依赖: hbase-clien原创 2015-11-18 14:33:57 · 2157 阅读 · 0 评论 -
Vectors.dense()
import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.stat.Statistics val rdd = sc.makeRDD(Array(Array(1.0,10.1,2.5),Array(2.0,5.2,3.8))) val rdd2 = sc.makeRDD(Array(1.2原创 2015-12-12 15:00:49 · 10419 阅读 · 0 评论 -
pyspark Python 连接 HBase thrift
0.引言HBase-thrift项目是对HBase Thrift接口的封装,屏蔽底层的细节,使用户可以方便地通过HBase Thrift接口访问HBase集群,python通过thrift访问HBase。1.thrift安装python客户端机器安装: thrift官网 下载thrift-0.9.3.tar.gz 下载后解压到当前文件夹 tar xvf thrift-0.9.3.tar.原创 2015-11-16 14:40:03 · 4199 阅读 · 0 评论 -
Spark 使用Python在pyspark中运行简单wordcount
Spark入门(Python版) Spark1.0.0 多语言编程之python实现 Spark编程指南(python版)进入到spark目录, 然后采用默认的设置运行pyspark ./bin/pyspark配置master参数,使用4个Worker线程本地化运行Spark(local[k]应该根据运行机器的CPU核数确定) ./bin/pyspark –master local[原创 2015-11-19 21:49:52 · 34627 阅读 · 0 评论 -
Spark-1.0.0 standalone分布式安装教程
Spark-1.0.0 standalone分布式安装教程原创 2015-11-25 10:31:21 · 432 阅读 · 0 评论 -
Spark Working with Key/Value Pairs
Chapter 4. Working with Key/Value PairsKey/Value RDDs are commonly used to perform aggregations(聚合),and often we will do some initial ETL(extract, transform, and load 提取,转换和加载) to get our data into a k翻译 2015-12-11 22:35:50 · 2394 阅读 · 0 评论 -
提交Python 代码到Spark
没有设置spark环境变量的话:cd /spark路径/bin./spark-submit /usr/qy/test_pyspark.pytest_pyspark.py:#!/usr/bin/env python# -*- coding: utf-8 -*-# Wicle Qian# 2015.11.19# test the python in Spark without pysparkfr原创 2015-11-21 15:10:20 · 11096 阅读 · 0 评论 -
HBase shell scan 模糊查询
0.进入hbase shell ./hbase shell help help “get” #查看单独的某个命令的帮助1. 一般命令status 查看状态version 查看版本2.DDL(数据定义语言Data Definition Language)命令1. 创建表create ‘表名称’,’列名称1’,’列名称2’,’列名称3’ 如:create 'member','原创 2015-11-13 22:28:07 · 84941 阅读 · 2 评论 -
Scala Spark 求众数
1.数据格式1 2 31 4 54 5 64 7 87 8 910 11 1210 13 1410 1 21 100 10010 11 210 11 21 2 54 7 62.程序val conf = new SparkConf().setAppName("Mode")conf.setMast原创 2015-12-14 21:53:21 · 4749 阅读 · 0 评论 -
Spark map flatMap
Spark 中 map 与 flatMap 的区别 简而言之,flatMap是在map的基础上合并数据。通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt转载 2015-12-15 16:23:08 · 968 阅读 · 0 评论 -
Scala PrefixFilter
How to read from hbase using sparkTableInputFormat has the following attributes:SCAN_ROW_STARTSCAN_ROW_STOPconf.set(TableInputFormat.SCAN_ROW_START, "startrowkey")conf.set(TableInputFormat.SCAN_ROW_原创 2015-12-14 22:33:34 · 863 阅读 · 0 评论 -
Spark 连接 Hbase 配置
1.count对表terminal_data_file1进行count:package qyTest3import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.spark.{SparkContext, Spa原创 2015-11-30 20:24:47 · 3196 阅读 · 0 评论 -
Scala StatCounter类
Scala StatCounter1.Instance Constructorsnew StatCounter() //初始化StatCounter()new StatCounter(values:TraversableOnce[Double])//用给定的值实例化StatCounter,TranversableOnce我觉得相当于是个迭代器,指针只能从前往后查看一遍(不能逆行)2.Value翻译 2015-12-16 16:03:28 · 2005 阅读 · 0 评论 -
Spark saveAsTextFile
当我运行完一个Spark程序想把结果保存为saveAsTextFile, 结果使用hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part,好几千个。 原因: 运行Spark的时候把数据分成了很多份(partition),每个partition都把自己的数据保存在partxxx文件夹。 如果想保存为一份的话,就要: 先collect 或者data.coa原创 2016-01-27 19:24:01 · 15926 阅读 · 1 评论