spark
文章平均质量分 69
数据社
欢迎关注公众号:数据社
展开
-
Spark的这些事<四>——SparkSQL功能测试结果
一、Spark与Hive的差异(1)、in 不支持子查询(2.0支持https://issues.apache.org/jira/browse/SPARK-4226) eg: select * from tb_test1 where serv_number in (select serv_number from tb_test1 where serv_number=138);(2)、minus 不原创 2016-12-14 16:43:43 · 2278 阅读 · 0 评论 -
Spark的这些事<三>——spark常用的Transformations 和Actions
Transformationsmap,filter spark最长用的两个Transformations:map,filter,下面就来介绍一下这两个。先看下面这张图:从上图中可以清洗的看到 map和filter都是做的什么工作,那我们就代码演示一下。 val input = sc.parallelize(List(1,2,3,4)) val result1 = input.map(x原创 2016-08-17 19:58:21 · 1545 阅读 · 0 评论 -
Spark的这些事<二>——几个概念
1、SparkContext [经常简称为 sc]spark app 的起点和入口,一般用来加载数据集,生成第一个 rdd。2、定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。加载数据集加载数据集,这里的数据集大概分为两组: - 一种是不变的,静态数据集,大多数场景都是从数据库,文件系统上面加载进来 - 另一种是动态的数据集,一般做 stre原创 2016-08-12 12:59:37 · 1308 阅读 · 0 评论 -
Spark的这些事<一>——Windows下spark开发环境搭建
一、首先准备需要安装的软件 scala-2.10.4 下载地址:http://www.scala-lang.org/download/2.10.4.html scala-SDK-4.4.1-vfinal-2.11-win32.win32.x86_64 下载地址:http://scala-ide.org/ spark-1.6.2-bin-hadoop2.6 下载地址:http://spar原创 2016-07-18 19:09:31 · 2324 阅读 · 0 评论 -
Spark的这些事(五)—Spark on yarn 动态资源配置
一、YARN的配置 首先需要对YARN进行配置,使其支持Spark的Shuffle Service。修改每台集群上的yarn-site.xml: - 修改<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle,spark_shuffle</value></property> - 增加<pro原创 2017-04-12 10:50:02 · 6454 阅读 · 0 评论 -
浅谈用户行为分析(一)
浅谈用户行为分析(一)标签(空格分隔): 数据仓库 用户行为分析关于用户行为分析,很多互联网公司都有相关的需求,虽然业务不同,但是关于用户行为分析的方法和技术实现都是基本相同的。作者在两家公司都了用户行为分析的相关事项,分享一下自己的一些经验。一. 简介用户行为分析可以概括如下:哪个用户在什么时候做了什么操作在哪里做了什么操作,为什么要做这些操作,通过什么方式,用了多长时间等问题,总结出...原创 2018-10-18 10:53:01 · 13557 阅读 · 0 评论