SPARK
文章平均质量分 79
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
python中,用pyspark读取Hbase数据,并转换为dataframe格式
需要完成的关键三个点分别是,设置好连接spark的配置,通过spark从hbase中将数据读进来为rdd格式,然后将rdd格式的数据转换成dataframe的格式。1、首先需要设置pyspark连接spark的配置,spark连接有sparkcontext和sparksession这两种方式,同时这两种方式之间可以互相转换,连接代码如下:(1)通过SparkConf和SparkContex...转载 2020-03-26 17:32:48 · 1928 阅读 · 1 评论 -
Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表:create 'linecount','count'开启kafka集群并建立相应的topic:[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h转载 2017-11-29 13:21:52 · 1677 阅读 · 0 评论 -
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同,流计算模型在数据流动的过程中实时地进行捕捉和处理,并根据业务需求对数据进行计算分析,最终把结果保存或者分发给需要的组件。本文将从实时数转载 2017-11-29 13:29:24 · 732 阅读 · 0 评论 -
flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算 + Spark 基于pyspark下的实时日志分析
鉴于实在是比较少python相关是spark streaming的例子,对于自己实现的测试例子分享上来一起讨论。另外如果做spark streaming应用程序,强烈建议使用scala,python写日常的spark批处理程序还好这个例子为一个简单的收集hive的元数据日志,监控各个hive客户端访问表的统计。例子简单,但是涉及到不同的组件的应用,结构图(不含红色方框)如下 这也是L转载 2017-11-29 14:03:21 · 2181 阅读 · 0 评论 -
spark streaming + kafka +python(编程)初探
一、环境部署hadoop集群2.7.1zookeerper集群kafka集群:kafka_2.11-0.10.0.0spark集群:spark-2.0.1-bin-hadoop2.7.tgz环境搭建可参考我前面几篇文章。不再赘述三台机器:master,slave1,slave2二、启动集群环境1.启动hadoop集群start-all.sh2.启动spark集群start-mas转载 2017-11-29 14:11:00 · 5797 阅读 · 0 评论 -
#########好####### pyspark-Spark Streaming编程指南
参考:1、http://spark.apache.org/docs/latest/streaming-programming-guide.html2、https://github.com/apache/spark/tree/v2.2.0Spark Streaming编程指南OverviewA Quick ExampleBasic Concepts转载 2017-11-29 14:12:34 · 1314 阅读 · 0 评论 -
Mahout推荐算法API详解
Mahout推荐算法API详解Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Cr转载 2017-12-08 18:02:55 · 348 阅读 · 0 评论 -
SparkStreaming计算WordCount简单示例
在之前的Spark程序中,我们是对RDD进行各种操作,SparkStreaming我们对DStream操作,其中DStream是discretized stream(离散流)的简写,官网对他的解释是:DStreams can be created either from input data streams from sources such as Kafka, Flume, and Ki转载 2017-12-11 09:41:31 · 312 阅读 · 0 评论 -
基于spark机器学习--物品推荐 物品推荐
基于spark机器学习---------物品推荐物品推荐[html] view plain copyimport org.apache.spark.SparkContext import org.apache.spark.mllib.recommendation.{ALS, Rating} import org.jblas.D转载 2017-12-11 10:06:47 · 896 阅读 · 0 评论 -
#####带时间衰减因子#####应用实战: 如何利用Spark集群计算物品相似度
本文是Spark调研笔记的最后一篇,以代码实例说明如何借助Spark平台高效地实现推荐系统CF算法中的物品相似度计算。在推荐系统中,最经典的推荐算法无疑是协同过滤(Collaborative Filtering, CF),而item-cf又是CF算法中一个实现简单且效果不错的算法。在item-cf算法中,最关键的步骤是计算物品之间的相似度。本文以代码实例来说明如何利用Spark平台转载 2017-12-11 11:15:27 · 2494 阅读 · 0 评论 -
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)
梯度迭代树算法简介: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。 梯度提升树依次迭代训练一系列的决策树。在一次迭代中,算法使用现有的集成来对每个训练实例的类别进行预测,然后将预测结转载 2017-10-26 20:24:14 · 867 阅读 · 0 评论 -
结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure
例子某大学一个系,总共100人,其中男90人,女10人,现在根据每个人的特征,预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数计算由于我知道男生远多于女生,所以我完全无视特征,直接预测所有人都是男生 我预测所的人都是男生,而实际有90个男生,所以 预测正确的数量 = 90 需要预测的总数 = 100转载 2017-11-09 19:06:06 · 1394 阅读 · 1 评论 -
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者转载 2017-10-13 16:54:58 · 249 阅读 · 0 评论 -
实时流计算Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算转载 2017-06-14 15:41:29 · 592 阅读 · 0 评论 -
Spark中ml和mllib的区别
Spark中ml和mllib的主要区别和联系如下:ml和mllib都是Spark中的机器学习库,目前常用的机器学习功能2个库都能满足需求。spark官方推荐使用ml, 因为ml功能更全面更灵活,未来会主要支持ml,mllib很有可能会被废弃(据说可能是在spark3.0中deprecated)。ml主要操作的是DataFrame, 而mllib操作的是RDD,也就是说二者面向的数据集不一样转载 2017-07-08 10:31:34 · 3179 阅读 · 0 评论 -
Spark SQL与Hive On MapReduce速度比较
我们都知道Spark比Hadoop的MR计算速度更快。到底快多少呢?我一直比较疑惑,会有官网说的那么夸张吗。今天就拿基于Spark的Spark SQL和基于MR的Hive比较一下,因为Spark SQL也兼容了HiveQL,我们就可以通过运行相同的HiveQL语句,比较直观的看出到底快多少了。Spark SQL只要在编译的时候引入hive支持,就可以支持Hive转载 2017-07-21 11:42:10 · 4294 阅读 · 0 评论 -
如何安装Spark & TensorflowOnSpark
对的,你没看错,这是我的一条龙服务,我在入坑填坑无数之后终于成功搭建起了Spark和TensorflowOnSpark的运行环境,并成功运行了示例程序(大概就是手写识别的训练和识别吧)。安装JAVA和Hadoop这里提供一个很好的教程,就是又好用,又好看的教程。 http://www.powerxing.com/install-hadoop/ 按照这个教程来,基本上就没有太转载 2017-08-10 10:08:09 · 482 阅读 · 0 评论 -
Apache Spark 三种分布式部署方式比较
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce转载 2017-08-10 10:41:38 · 433 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLCo转载 2017-08-10 11:16:39 · 263 阅读 · 0 评论 -
Apache Spark 2.0: 机器学习模型持久化
在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易:数据科学家开发ML模型并移交给工程师团队在生产环境中发布;数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器学习服务工作流;数据科学家创建多个训练ML模型的作业转载 2017-08-21 16:07:26 · 557 阅读 · 0 评论 -
XGBoost4J: Portable Distributed XGBoost in Spark, Flink and Dataflow
IntroductionOn March 2016, we released the first version of XGBoost4J, which is a set of packages providing Java/Scala interfaces of XGBoost and the integration with prevalent JVM-based distribute转载 2017-09-15 06:47:07 · 1630 阅读 · 0 评论 -
Spark入门实战系列--9.Spark GraphX介绍及实例
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 众所周知•,社交网络中人与人之间有很多关系链,例如Twitter、Facebook转载 2017-10-13 16:49:06 · 453 阅读 · 0 评论 -
Spark之分层抽样
Spark中组件Mllib的学习之基础概念篇1解释 分层抽样的概念就不讲了,具体的操作: RDD有个操作可以直接进行抽样:sampleByKey和sample等,这里主要介绍这两个 (1)将字符串长度为2划分为层1和层2,对层1和层2按不同的概率进行抽样 数据aabbccddeeaaabbbcccdddeee比如: val fractions: M转载 2017-06-13 10:19:07 · 7288 阅读 · 0 评论 -
####好好好¥#####spark Streaming 技术内幕 : 从DSteam到RDD全过程解析
一、DStream和RDD的关系 DSream 代表了一系列连续的RDD,DStream中每个RDD包含特定时间间隔的数据,如下图所示: 从上图可以看出,一个DStream 对应了时间维度上的多个RDD。 DStream 作为Spark Stream的一个基本抽象,提供了高层的API来进行Spark Streaming 程序开发转载 2017-12-11 16:21:06 · 368 阅读 · 0 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我转载 2017-11-28 10:03:47 · 561 阅读 · 0 评论 -
azkaban学习笔记总结
1. 任务调度概述一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系现成的开源调度系统,比如ooize、azkaban。2. azkaban介绍Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种...转载 2018-07-11 16:54:25 · 359 阅读 · 0 评论 -
使用Azkaban调度Spark任务
概述为什么需要工作流调度系统l 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等l 各任务单元之间存在时间先后及前后依赖关系l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:1、 通过Ha...转载 2018-07-13 13:20:29 · 9759 阅读 · 3 评论 -
使用Spark进行微服务的实时性能分析
作为一种灵活性极强的构架风格,时下微服务在各种开发项目中日益普及。在这种架构中,应用程序被按照功能分解成一组松耦合的服务,它们通过REST APIs相互协作。通过这个设计原则,开发团队可以快速地不断迭代各个独立的微服务。同时,基于这些特性,很多机构可以数倍地提升自己的部署能力。然而凡事都有两面性,当开发者从微服务架构获得敏捷时,观测整个系统的运行情况成为最大的痛点。如图1所示,多个服务工作联合...转载 2018-07-30 19:23:57 · 1340 阅读 · 0 评论 -
微服务架构的六种模式
1.微服务架构模式方案用Scale Cube方法设计应用架构,将应用服务按功能拆分成一组相互协作的服务。每个服务负责一组特定、相关的功能。每个服务可以有自己独立的数据库,从而保证与其他服务解耦。 1.1 聚合器微服务设计模式 聚合器调用多个服务实现应用程序所需的功能。它可以是一个简单的Web页面,将检索到的数据进行处理展示。它也可以是一个更高层次的组合微服务...转载 2018-07-30 19:25:06 · 1780 阅读 · 0 评论 -
Spark性能调优-总结分享
1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,Hadoop 2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行...转载 2018-08-10 11:54:42 · 479 阅读 · 0 评论 -
Spark : 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-08-13 16:56:27 · 252 阅读 · 0 评论 -
###好好好#####使用GraphFrames进行飞一般的图计算
GraphFrame是将Spark中的Graph算法统一到DataFrame接口的Graph操作接口。支持多种语言,可以通过Python使用。本博客包括 On-Time Flight Performance with GraphFrames notebook 的完整内容,其中包括一些扩展功能,您可以通过 Databricks Community Edition免费试用(加入 beta wait...转载 2018-09-06 10:50:13 · 2975 阅读 · 0 评论 -
######kubernetes中部署spark集群
在写这个的时候,spark版本为2.2.1。基于kubernetes部署的两种方式直接使用kubernetes作为集群管理器(Cluster Manager),类似与mesos和yarn,使用方式可以看running-on-kubernetes。但是这个部署方式,一是还不成熟,不推荐在生产环境使用。第二是要求k8s版本大于1.6,但我这边版本1.5.1,线上在用,不太想升级,而spark只...转载 2019-10-09 00:30:34 · 377 阅读 · 0 评论 -
#####好好好好######Hadoop大数据平台实战(05):深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s
Spark可以以分布式集群架构模式运行,如果我们不熟Spark Cluster,这个时候需要集群管理器帮助我们管理Spark 集群。 集群管理器根据需要为所有工作节点提供资源,操作所有节点。负责管理和协调集群节点的程序一般叫做:Cluster Manager,集群管理器。目前搭建Spark 集群,可以的选择包括Standalone,YARN,Mesos,K8s,这么多工具,在部署Spark集群时...转载 2019-10-09 00:40:42 · 258 阅读 · 0 评论 -
在pyspark中调用scala代码
在pyspark中调用scala代码情境说明问题我们这边是要使用Spark去并行一个自然语言处理的算法,其中使用到了LDA主题模型。由于使用的是天河二号,Spark版本是1.5.1,pyspark同样,所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口),只能使用topicsMatrix的方法。本来凑合用topicsMatrix也行,但我们发现,这...转载 2018-07-11 11:47:43 · 1172 阅读 · 0 评论 -
基于 Spark 的文本情感分析
IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代。这个巨大的转变,来自 IBM 对技术和商业领域的三个重要的洞察力[1]。第一,这个世界被数据所充斥。第二,这个世界通过代码被改造。第三,认知计算的出现。其中,认知计算可以:通过感知与互动,理解非结构化数据通过生成假设、评估、辩证、和建议来推理从专家培训、每一次互动、及持续取得数据中学习。本文描述了一个基于 Spark 构...转载 2018-05-24 17:53:24 · 4805 阅读 · 2 评论 -
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版转载 2017-11-28 10:14:38 · 299 阅读 · 0 评论 -
###好好好######Spark GraphX处理图数据
大数据呈现出不同的形态和大小。它可以是批处理数据,也可以是实时数据流;对前者需要离线处理,需要较多的时间来处理大量的数据行,产生结果和有洞察力的见解,而对后者需要实时处理并几乎同时生成对数据的见解。我们已经了解了如何将 Apache Spark 应用于处理批数据(Spark Core)以及处理实时数据(Spark Streaming)。有时候,所需处理的数据是很自然地联系在一起的。譬如,在转载 2018-02-07 17:09:05 · 2753 阅读 · 0 评论 -
pyspark系列--pyspark读写dataframe
pyspark读写dataframe 1. 连接spark2. 创建dataframe 2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取3. 保存数据 3.1. 写到csv3.2. 保存到parquet3.3. 写到hive3...转载 2018-04-16 17:25:49 · 4514 阅读 · 1 评论 -
Elephas: Distributed Deep Learning with Keras & Spark
Elephas: Distributed Deep Learning with Keras & Spark Elephas is an extension of Keras, which allows you to run distributed deep learning models at scale with Spark. Elephas currently supports a n...转载 2018-05-09 17:23:09 · 841 阅读 · 0 评论