spark
sysmedia
这个作者很懒,什么都没留下…
展开
-
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2017-03-08 15:33:32 · 349 阅读 · 0 评论 -
基于Spark实时计算商品关注度
基于Spark实时计算商品关注度一、实验介绍1.1 内容简介处于网络时代的我们,随着 O2O 的营销模式的流行,越来越多的人开始做起了电商。与此同时也产生了许多网络数据,然而这些数据有什么用呢。比如说一个电商公司可以根据一个商品被用户点击了多少次,用户停留时间是多久,用户是否收藏了该商品。这些都是可以被记录下来的。通过这些数据我们就能分析出这段时间内哪些商品最受普遍人们的关转载 2017-05-07 10:00:19 · 1487 阅读 · 2 评论 -
用sparkstreaming按天计算地区销售额简单模版
producer端:import java.util.HashMapimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming._转载 2017-05-07 10:03:00 · 853 阅读 · 0 评论 -
spark【例子】同类合并、计算2
spark【例子】同类合并、计算2例子描述:大概意思为,统计用户使用app的次数排名原始数据:000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E:62:20,15097003,,2016/6/8 17:10,2016/6/8 17:10,690,6218,11=0|12=200,2016/7/5 11:11转载 2017-05-07 10:20:56 · 487 阅读 · 0 评论 -
spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
例子描述:有个网站访问日志,有4个字段:(用户id,用户名,访问次数,访问网站)需要统计:1.用户的访问总次数去重2.用户一共访问了多少种不同的网站这里用sql很好写select id,name,count(distinct url) from table group by id,name其实这个题目是继官方和各种地方讲解聚合函数(agg转载 2017-05-07 11:01:33 · 710 阅读 · 0 评论 -
Spark API 详解/大白话解释 之 reduce、reduceByKey
reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。val c = sc.parallelize(1 to 10)c.reduce((x, y) => x + y)//结果551212具体过程,RDD转载 2017-05-07 15:48:27 · 2780 阅读 · 0 评论 -
从零开始,手把手教会你5分钟用SPARK对PM2.5数据进行分析
要从零开始,五分钟做完一个基于SPARK的PM2.5分析项目,你是不是会问1. PM2.5的数据在哪里?2. SPARK的环境哪儿有?3. 程序怎么编?不用急,跟着我做,5分钟就可以从零开始完成所有的事情。准备SPARK环境今天,在各种公有云都可能申请到SPARK的环境。但彻底免费,启动最容易的是在超能云(SuperVessel)上面的SPARK服务,完全免费。转载 2017-05-07 16:02:30 · 1918 阅读 · 0 评论 -
spark saveAsTextFile
当我运行完一个Spark程序想把结果保存为saveAsTextFile, 结果使用Hadoop fs -ls la /qy/151231.txt后发现里面有一系列的part,好几千个。 原因: 运行Spark的时候把数据分成了很多份(partition),每个partition都把自己的数据保存在partxxx文件夹。 如果想保存为一份的话,就要: 先collect 或转载 2017-05-08 10:45:11 · 1854 阅读 · 1 评论 -
Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析
Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析package com.dt.spark.coresimport org.apache.spark.{SparkConf, SparkContext}object Movie_Users_Analyzer {def main (args:Array[St转载 2017-05-20 09:27:43 · 1239 阅读 · 0 评论 -
spark dataframe和dataSet用电影点评数据实战
RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCDataFrameDataFrame引入了sche转载 2017-05-20 09:49:07 · 1650 阅读 · 1 评论 -
RDD,DataFrame与DataSet区别
1.RDD与DataFrame的区别下面的图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。转载 2017-05-20 12:54:42 · 742 阅读 · 0 评论 -
如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题
原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成若干个Partition,这些partition可以被并行处理)。其结果就是一个存下来的文件,其实是hdfs中一个目录,在这个目录下才是众多partition对应的文件,最坏的情况是出现好多size为0的文件。如果确实想避免小文件,可以在save之前把DaraFrame的partition设为0:转载 2017-05-20 13:20:58 · 3563 阅读 · 0 评论 -
Spark2加载保存文件,数据文件转换成数据框dataframe
hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/hadoop fs -ls -R /datafiledrwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao-rw-r--r--转载 2017-05-20 13:27:20 · 2017 阅读 · 1 评论 -
Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入
问题导读1.DataFrame是什么?2.如何创建DataFrame?3.如何将普通RDD转变为DataFrame?4.如何使用DataFrame?5.在1.3.0中,提供了哪些完整的数据写入支持API?自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒,继续转载 2017-05-20 13:28:19 · 1535 阅读 · 1 评论 -
Spark DataFrame入门教程
DataFrame是Spark推荐的统一结构化数据接口,基于DataFrame快速实现结构化数据的分析,详细使用教程在https://spark.apache.org/docs/latest/sql-programming-guide.html使用创建SparkQL的上下文。from pyspark.sqlimportSQLContextsqlContext = S转载 2017-05-20 13:29:29 · 1110 阅读 · 0 评论 -
基于Spark Mllib,SparkSQL的电影推荐系统
本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下: 1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据 2.我在一个电影网站上看了几部电影,并都为其做了评分操作(0-5分) 3.该电影网站的推荐系统根据我对那转载 2017-06-01 18:12:21 · 2112 阅读 · 0 评论 -
基于Spark平台的电影推荐系统实现
博主一年前写过一个这样的文章,电影推荐也是博主一年前就学习过的,温故而知新,重新拿出来好好重新研究一番。这时以前的文章链接:如何使用Spark ALS实现协同过滤http://www.aboutyun.com/forum.php?mod=viewthread&tid=13620(出处: about云开发),基于spark0.9官网当时给的例子,与本文有有所不同,本文最后也有经过修改的相关代转载 2017-06-01 18:14:13 · 4202 阅读 · 0 评论 -
一个Spark推荐系统引擎的实现
第三篇:一个Spark推荐系统引擎的实现阅读目录前言第一步:提取有效特征第二步:训练推荐模型第三步:使用ALS推荐模型第四步:物品推荐第五步:推荐效果评估小结回到顶部前言 经过2节对MovieLens数据集的学习,想必读者对MovieLens数据集认识的不错了;同时也顺带回顾了些Spark编程技巧,Python数据分析技巧。原创 2017-06-01 18:16:02 · 3285 阅读 · 0 评论 -
Hadoop HA 模式下运行spark 程序
(1)将Hadoop的hdfs-site.xml 和core-site.xml文件复制到spark/conf目录下 (2)追加如下内容到 spark-defaults.conf文件spark.files file:///home/hadoop/spark/conf/hdfs-site.xml,file:///home/hadoop/spark/原创 2017-05-04 14:44:36 · 1022 阅读 · 2 评论 -
Spark 入门实战之最好的实例
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易,Scala IDE 官网 下载合适的版本并解压就可以完成安装,本文使用的版本是 4.1.0。安装 Scala 语言包如果下载的 S转载 2017-04-06 17:18:38 · 1184 阅读 · 0 评论 -
Spark-ML-01-小试spark分析离线商品信息
任务一个在线商品购买记录数据集,约40M,格式如下:Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,9912341234完成统计: 1.购买总次数 2.客户总个数 3.总收入 4.最畅销的商品代码import java.u转载 2017-04-06 17:12:14 · 586 阅读 · 0 评论 -
Spark 入门实战之最好的实例
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易,Scala IDE 官网 下载合适的版本并解压就可以完成安装,本文使用的版本是 4.1.0。安装 Scala 语言包如果下载的 S转载 2017-03-10 17:38:00 · 621 阅读 · 0 评论 -
基于Spark的用户行为路径分析的产品化实践
1. 什么是用户行为路径用户行为路径分析是互联网行业特有的一类数据分析方法,它主要根据每位用户在App或网站中的点击行为日志,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途,如App核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画,App产品设计的优化与改版等。2. 路径分析业务场景用户行为路径分析的一转载 2017-03-23 23:04:39 · 2851 阅读 · 0 评论 -
Spark SQL 初探: 使用大数据分析2000万数据
目录 [−]安装和配置SparkSpark初试使用Spark SQL分析数据去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。 如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。Spark是UC Berke转载 2017-03-23 23:08:58 · 1399 阅读 · 0 评论 -
Spark-ML-01-小试spark分析离线商品信息
任务一个在线商品购买记录数据集,约40M,格式如下:Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,9912341234完成统计: 1.购买总次数 2.客户总个数 3.总收入 4.最畅销的商品代码import java.u转载 2017-03-23 23:10:49 · 402 阅读 · 0 评论 -
spark dataframe操作集锦(提取前几行,合并,入库等)
Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到Hive中。转载 2017-04-11 11:03:07 · 1074 阅读 · 0 评论 -
spark【例子】同类合并、计算(主要使用groupByKey)
例子描述:【同类合并、计算】主要为两部分,将同类的数据分组归纳到一起,并将分组后的数据进行简单数学计算。 难点在于怎么去理解groupBy和groupByKey原始数据 2010-05-04 12:50,10,10,10 2010-05-05 13:50,20,20,20 2010-05-06 14:50,30,30,30 2010-05-05 13:5转载 2017-04-11 11:16:26 · 1962 阅读 · 0 评论 -
spark【例子】count(distinct 字段) 简易版 使用groupByKey和zip
例子描述:有个网站访问日志,有4个字段:(用户id,用户名,访问次数,访问网站)需要统计:1.用户的访问总次数去重2.用户一共访问了多少种不同的网站这里用sql很好写select id,name,count(distinct url) from table group by id,name其实这个题目是继官方和各种地方讲解聚合函数(agg转载 2017-04-11 11:20:48 · 1749 阅读 · 0 评论 -
spark【例子】字典关联1
例子描述:我们在日常工作中,经常会遇到字典关联的场景,比如:张三,19,1 李四,19,2 王五,19,3将后面的数字关联成职业张三,19,司机 李四,19,厨师 王五,19,警察这是一个简单的场景,往往在实际当中,后面需要关联的内容是一个字典表。下面请看例子代码片段:创建字典 读取配置文件方法转载 2017-04-11 11:22:10 · 806 阅读 · 0 评论 -
Spark的四种运行模式
介绍本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群中。Spark on Yarn模式Spark客户端直接连接Yarn。不需要额外构建Spark集群。Spark on Mesos模式Spark客户端直接连接Mesos。转载 2017-04-11 13:14:37 · 1949 阅读 · 0 评论 -
Spark的算子的分类
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会转载 2017-04-11 13:52:03 · 440 阅读 · 0 评论 -
Spark RDD/Core 编程 API入门系列之map、filter、textFile、cache、对Job输出结果进行升和降序、union、groupByKey、join、reduce、look
1、以本地模式实战map和filter2、以集群模式实战textFile和cache3、对Job输出结果进行升和降序4、union5、groupByKey6、join7、reduce8、lookup 1、以本地模式实战map和filter以local的方式,运行spark-shell。spark@Sp转载 2017-04-11 13:54:35 · 1293 阅读 · 0 评论 -
Spark RDD/Core 编程 API入门系列之简单移动互联网数据(五)
Spark RDD/Core 编程 API入门系列之简单移动互联网数据(五) 通过对移动互联网数据的分析,了解移动终端在互联网上的行为以及各个应用在互联网上的发展情况等信息。具体包括对不同的应用使用情况的统计、移动互联网上的日常活跃用户(DAU)和月活跃用户(MAU)的统计,以及不同应用中的上行下行流量统计等分析。 为了简化移动互联网数据的分析,我这里是当个入门。转载 2017-04-11 13:58:26 · 608 阅读 · 0 评论 -
Spark RDD/Core 编程 API入门系列 之rdd案例(map、filter、flatMap、groupByKey、reduceByKey、join、cogroupy等)(四)
Spark RDD/Core 编程 API入门系列 之rdd案例(map、filter、flatMap、groupByKey、reduceByKey、join、cogroupy等)(四) 声明: 大数据中,最重要的算子操作是:join !!! 典型的transformation和action val n转载 2017-04-11 14:02:23 · 2211 阅读 · 0 评论 -
Spark 下操作 HBase
Spark 下操作 HBase(1.0.0 新 API)Hbase经过七年发展,终于在今年2月底,发布了 1.0.0 版本。这个版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地来熟悉下新版API。并且了解下如何与当下正红的 Spark 结合,进行数据的写入与读取。鉴于国内外有关 HBase转载 2017-04-06 17:01:12 · 563 阅读 · 0 评论 -
Spark读写Hbase示例代码
最少需要导入hbase以下4个jar:hbase-clienthbase-commonhbase-protocolhbase-server写入Hbasedef writeHbaseFromRDD (tableName:String, columnFamily:String, column:String,rdd:RDD[(String, String)]):转载 2017-04-06 17:02:36 · 943 阅读 · 0 评论 -
Spark踩坑记——初试
Spark踩坑记——初试[TOC]Spark简介整体认识Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用:基本概念Fork转载 2017-04-06 17:07:25 · 578 阅读 · 0 评论 -
大数据用户画像方法与实践(干货 转帖)
在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据应该说是 信息技术的自然延伸,意味着无所不在的数据。我们先看下数据地位发生转变转载 2017-06-01 18:26:51 · 3821 阅读 · 5 评论