Spark算子:RDD基本转换操作(4)–union、intersection、subtract

uniondef union(other: RDD[T]): RDD[T]该函数比较简单,就是将两个RDD进行合并,不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int] =...

2018-05-31 16:39:52

阅读数:77

评论数:0

Spark与Pandas中DataFrame对比(详细)

Spark与Pandas中DataFrame对比(详细)PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结...

2018-05-31 16:38:18

阅读数:124

评论数:0

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

一、前述      1、SparkSQL介绍          Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各...

2018-05-31 14:17:06

阅读数:108

评论数:0

Spark-SQL之DataFrame操作

  dycopy :http://blog.csdn.net/dabokele/article/details/52802150 Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考...

2018-05-31 14:13:10

阅读数:66

评论数:0

Spark-mllib源码分析之逻辑回归(Logistic Regression)

一个例子类关系图创建用LBFGS求解LR的类运行模型模型优化1 损失与梯度的计算2 LR目标函数梯度计算3 LR正则项计算及梯度更新模型预测总结1. 一个例子// 0. LogisticRegressionWithLBFGSExample#main() def main(args: Array[S...

2018-05-30 19:06:19

阅读数:88

评论数:0

scala学习笔记-Array、ArrayBuffer以及遍历数组(7)

Array在Scala中,Array代表的含义与Java中类似,也是长度不可改变的数组。此外,由于Scala与Java都是运行在JVM中,双方可以互相调用,因此Scala数组的底层实际上是Java数组。例如字符串数组在底层就是Java的String[],整数数组在底层就是Java的Int[]。 1...

2018-05-30 17:59:22

阅读数:163

评论数:0

Spark SQL 函数操作

Spark 内置函数使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而DataFrame天生就是”A distributed collection of data organized into...

2018-05-30 16:30:31

阅读数:169

评论数:0

[Spark sql]--所有函数举例(spark-2.x版本)

!! expr - Logical not.%expr1 % expr2 - Returns the remainder after expr1/expr2.Examples:> SELECT 2 % 1.8; 0.2 > SELECT MOD(2, ...

2018-05-30 11:46:18

阅读数:129

评论数:0

Spark2 Dataset之collect_set与collect_list

collect_set去除重复元素;collect_list不去除重复元素select gender,       concat_ws(',', collect_set(children)),       concat_ws(',', collect_list(children))  from A...

2018-05-30 10:22:49

阅读数:300

评论数:0

spark concat_ws,collect_set

concat_wshive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id; O...

2018-05-30 10:07:05

阅读数:127

评论数:0

区块链太火,小心你的服务器被动挖矿

某日,笔者收到 VPS 服务器 CPU 告警,上服务器一看,有个叫做 gpg-agentd 的进程占用大量的 CPU 资源。接着就是常规的排查,IO 情况、网络流量、内存情况、系统日志、crontab 等。当排查到 crontab 时,发现 crontab 有如下的任务:*/5 * * * * c...

2018-05-30 09:50:52

阅读数:563

评论数:0

SPARK2.2 DATAFRAME的一些算子操作

Spark Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生...

2018-05-25 16:19:32

阅读数:287

评论数:0

spark2.x- spark sql语句可使用的内置函数

spark sql语句可使用的内置函数 // Note: Whenever we add a new entry here, make sure we also update ExpressionToSQLSuite val expressions: Map[String, (Express...

2018-05-25 15:50:32

阅读数:256

评论数:0

Window环境下使用IntelliJ IDEA调试Spark Application

最近在玩spark,每次敲完代码,就需要打成jar包上传服务器进行测试,所以比较繁琐,准备在window环境下使用IntelliJ IDEA搭建Spark调试环境。在window环境下先安装Spark环境:安装jdk,建议1.8+,配置java环境变量。下载Hadoop,并安装,配置环境变量,修改...

2018-05-25 12:38:30

阅读数:104

评论数:0

scala的split()函数

今天在写一个统计用户信息的程序时出现了bug,导致统计结果与真实值有很大差距。经过仔细检查,我发现是错误地使用split函数导致的。看来还是对scala中的split函数的理解不够透彻。本篇博文将详细解释scala中String.split的参数及用法。  因为scala中的String复用了Ja...

2018-05-25 11:16:00

阅读数:131

评论数:0

array,list,dataframe索引切片操作

list,一维,二维array,datafrme,loc、iloc、ix的简单探讨Numpy数组的索引和切片介绍:从最基础的list索引开始讲起,我们先上一段代码和结果:a = [0,1,2,3,4,5,6,7,8,9] a[:5:-1] #step < 0,所以st...

2018-05-24 15:05:33

阅读数:67

评论数:0

numpy.degrees

numpy.degrees(x[, out]) = <ufunc 'degrees'>Convert angles from radians to degrees.Parameters:x : array_likeInput array in radia...

2018-05-24 11:12:07

阅读数:72

评论数:0

df.apply

http://www.cnblogs.com/wuzhiblog/p/python_new_row_or_col.html DataFrame数据预览: A B C D E 0 0.673092 0.230338...

2018-05-24 11:06:00

阅读数:150

评论数:0

Python3pandas库Series用法(基础整理)

构造/初始化Series的3种方法:(1)用列表list构建Series(1.2)pandas会默认用0到n来做Series的index,但是我们也可以自己指定index,index你可以理解为dict里面的key(2)用字典dict来构建Series,因为Series本身其实就是key-valu...

2018-05-23 16:29:01

阅读数:132

评论数:0

python中pandas库中DataFrame对行和列的操作使用方法

用pandas中的DataFrame时选取行或列:import numpy as np import pandas as pd from pandas import Sereis, DataFrame ser = Series(np.arange(3.)) data = DataFrame(n...

2018-05-23 16:11:22

阅读数:81

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭