大数据实战:基于Spark SQL统计分析函数求分组TopN

做大数据分析时,经常遇到求分组TopN的问题,如:求每一学科成绩前5的学生;求今日头条各个领域指数Top 30%的头条号等等。Spark SQL提供了四个排名相关的统计分析函数: dense_rank() 返回分区内每一行的排名,排名是连续的。 rank() 返回分区内每一行的排名,排名可能不...

2018-08-01 09:58:21

阅读数:218

评论数:0

Scala--映射和元组

一、构造映射 val scores = Map("Jim"->10, ("Tom",20), "Sam"->44) //key-&amp...

2018-07-06 15:09:18

阅读数:30

评论数:0

Scala容器中的高阶函数 | Hello Code

文章目录1. List1.1. aggregate1.2. andThen1.3. collect1.4. collectFirst1.5. compose1.6. corresponds1.7. count1.8. dropWhile1.9. exists1.10. filter1.11. fi...

2018-07-04 14:37:05

阅读数:56

评论数:0

Scala编程基础

Scala与Java的关系Scala与Java的关系是非常紧密的!!因为Scala是基于Java虚拟机,也就是JVM的一门编程语言。所有Scala的代码,都需要经过编译为字节码,然后交由Java虚拟机来运行。所以Scala和Java是可以无缝互操作的。Scala可以任意调用Java的代码。所以Sc...

2018-07-04 14:08:25

阅读数:50

评论数:0

【Scala】高阶函数和柯里化

高阶函数在数学和计算机科学中,高阶函数是至少满足下列一个条件的函数:- 接受一个或多个函数作为输入 - 输出一个函数 在数学中它们也叫做算子(运算符)或泛函。微积分中的导数就是常见的例子,因为它映射一个函数到另一个函数。高阶函数的例子假设有一个函数对给定两个数区间中的所有整数求和:def sumI...

2018-07-04 11:49:44

阅读数:50

评论数:0

Spark2.0机器学习系列之2:Logistic回归及Binary分类(二分问题)结果评估

参数设置α:梯度上升算法迭代时候权重更新公式中包含 α : http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和最大迭代次数的作用,给出Python版的函数计算过程。# 梯度上升算法-计算回归系数 # 每个回归系...

2018-07-03 16:39:07

阅读数:83

评论数:0

scala--快速了解Breeze

 https://github.com/scalanlp/breeze/wiki/Quickstart点击打开链接https://github.com/scalanlp/breeze/wiki/Linear-Algebra-Cheat-Sheet点击打开链接  根据(一)中讲的,我们只需要在sbt...

2018-07-02 16:36:09

阅读数:60

评论数:0

scala-for高级用法

/*高级for循环*/  //这个叫守卫  for(i <- 1 until 10 if i%3==0){ //修改步长    println(i)  } for(i <- 1 until 10; if i%3==0){ //修改步长.其实是有个分号的 ...

2018-07-02 15:29:29

阅读数:79

评论数:0

spark向量矩阵的使用(scala)

向量和矩阵都是做机器学习的基础,下面来介绍下使用 spark的底层的向量和矩阵是基于Breeze的,下面主要介绍下Breeze的使用,下面直接给代码,代码上有注释 需要引入的包import breeze.linalg._ import breeze.numerics._ import org.ap...

2018-07-02 14:08:47

阅读数:149

评论数:0

SparkTask未序列化(Tasknotserializable)问题分析

问题描述及原因分析在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task未序...

2018-06-29 17:40:21

阅读数:39

评论数:0

Spark MLlib特征处理:均值、方差、协方差 ---原理及实战

原理向量a→=(x1,x2,x3...xn)a→=(x1,x2,x3...xn),akak是a→a→中的任意元素,k=1,2,3⋯nk=1,2,3⋯n 例如:a→a→代表一个维度(特征)DimA,akak代表特征值。 向量b→=(x1,x2,x3...xn)b→=(x1,x2,x3...xn),b...

2018-06-28 18:02:35

阅读数:53

评论数:0

十分钟搞定pandas

10 Minutes to pandasThis is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook10分钟搞定pandas...

2018-06-25 19:56:40

阅读数:151

评论数:0

Scala讲座:类定义和构造函数

本文节选自最近在日本十分流行的Scala讲座系列的第三篇,由JavaEye的fineqtbull翻译。本系列的作者牛尾刚在日本写过不少有关Java和Ruby的书籍,相当受欢迎。序言到这为止牛尾先生作了一下Scala语言的介绍,接下来以微型旅游的形式做一下有关Scala语法特点的探险。如果是初次接触...

2018-06-25 16:45:18

阅读数:63

评论数:0

特征降维-PCA(Principal Component Analysis)

在进行图像的特征提取的过程中,提取的特征维数太多经常会导致特征匹配时过于复杂,消耗系统资源,不得不采用特征降维的方法。所谓特征降维,即采用一个低纬度的特征来表示高纬度。特征降维一般有两类方法:特征选择和特征抽取。特征选择即从高纬度的特征中选择其中的一个子集来作为新的特征;而特征抽取是指将高纬度的特...

2018-06-21 17:10:49

阅读数:38

评论数:0

主成份分析(PCA)详解

主成分分析法(Principal Component Analysis)大多在数据维度比较高的时候,用来减少数据维度,因而加快模型训练速度。另外也有些用途,比如图片压缩(主要是用SVD,也可以用PCA来做)、因子分析等。具体怎么用,看个人需求如何,这篇文章主要解释一下PCA的原理。当然应用起来也非...

2018-06-19 15:56:58

阅读数:113

评论数:0

核密度估计Kernel Density Estimation(KDE)

备:密度估计相关知识 密度估计经常在统计学中作为一种基于有限的样本来估计其概率密度函数的方法。 在研究随机变量的过程中,随机变量的概率密度函数的作用是描述随机变量的特性。但是在实际应用中,总体概率密度函数通常是未知的,那么如何来估计总体概率密度呢?一般,我们通过抽样或者采集一定的样本,可以根据统计...

2018-06-19 15:31:22

阅读数:1125

评论数:0

Collaborative Filtering算法

协同过滤(collaborative filtering CF)技术是当前最为成功和广泛使用的个性化推荐技术,传统的协同过滤技术也叫基于用户的协同过滤,(user—based CF).它是通过相同或相近兴趣的用户对资源的评价向用户推荐信息的.协同过滤技术的优点是能为用户发现更多新的兴趣.但是,传统...

2018-06-19 15:20:35

阅读数:755

评论数:0

维数约减--Dimensionality Reduction

维数约减属于无监督学习范畴,我们希望使用维数约减的原因可能有:通过数据压缩以减少数据占有内存的大小,为算法运算提高速度,将数据可视化等。数据压缩-data compression​ 某个物体的长度以x1厘米为单位,另一个x2是它以英寸为单位的长度。这是一个非常冗余的数据,所以与其用两个特征变量x1...

2018-06-19 15:19:08

阅读数:66

评论数:0

频繁模式挖掘Frequent Pattern Mining

频繁模式挖掘(Frequent Pattern Mining):频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题。建议用户参考维基百科的association rule learning 了解更多信息。MLlib支持了一个并行的FP-growth,FP-grow...

2018-06-19 14:33:50

阅读数:125

评论数:0

Apache Spark 2.2.0 官方文档中文版(翻译完成 98%. 除 MLib 外) | ApacheCN

原文链接: http://www.apachecn.org/bigdata/spark/268.htmlApache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.官方网址: http://spark.apache.org中文文档: http://spark.apachecn.org花...

2018-06-19 11:50:19

阅读数:74

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭