![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 87
xiaohei.info
Talk is cheap,show me the code.
展开
-
Spark最佳实践-项目规范
前言大数据开发的日常工作中,开发人员经常需要使用 Spark、Flink 等计算引擎作为工具来实现一些 业务逻辑 的计算。以 Spark 为例,开发人员会使用 SparkSQL、DataFrame、RDD 等不同形式的API来实现业务需求。通常情况下,简单的需求都可以通过 SparkSQL、DataFrame 很方便的实现,其简洁的API也是其深受数据分析师青睐的原因之一。但是正是因为 S...原创 2019-10-17 01:42:59 · 545 阅读 · 1 评论 -
Spark(五) -- Spark Streaming介绍与基本执行过程
Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任 而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何不足呢? 首先,对于Storm实时流处理惊人的低延迟性,Spark Streaming的不足很明显 Storm官方说的最低延迟可以使多少毫秒级别的 而Spark Streaming只能做到压秒,也原创 2015-05-16 20:11:20 · 2750 阅读 · 0 评论 -
Spark(三) -- Shark与SparkSQL
首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的 但是在Spark平台上,Shark的解析速度是Hive的几多倍 它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上的Shark构架图从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着H原创 2015-05-14 21:46:43 · 6292 阅读 · 0 评论 -
Spark(十二)--性能调优篇
一段程序只能完成功能是没有用的,只能能够稳定、高效率地运行才是生成环境所需要的。本篇记录了Spark各个角度的调优技巧,以备不时之需。一、配置参数的方式和观察性能的方式额。。。从最基本的开始讲,可能一些刚接触Spark的人不是很清楚Spark的一些参数变量到底要配置在哪里。可以通过三种方式配置参数,任选其一皆可。spark-env.sh文件中配置:最近常使用的配置方式,格原创 2015-09-17 23:31:14 · 4223 阅读 · 0 评论 -
Hadoop+Spark+Hbase部署整合篇
之前的几篇博客中记录的Hadoop、Spark和Hbase部署过程虽然看起来是没多大问题,但是之后在上面跑任务的时候出现了各种各样的配置问题。庆幸有将问题记录下来,可以整理出这篇部署整合篇。确保集群的每台机器用户名都为cloud(或者一样)为了避免过多重复的解释,这里仅仅示意了怎么配置,关于配置的详情解释可自行百度,必应之~或者参考: hadoop2.2.0集群安装和配置 HBase集群的安原创 2015-06-28 18:20:54 · 7184 阅读 · 0 评论 -
Spark(十) -- Spark Streaming API编程
本文测试的Spark版本是1.3.1Spark Streaming编程模型:第一步: 需要一个StreamingContext对象,该对象是Spark Streaming操作的入口 ,而构建一个StreamingContext对象需要两个参数: 1、SparkConf对象:该对象是配置Spark 程序设置的,例如集群的Master节点,程序名等信息 2、Seconds对象:该对象设置了Str原创 2015-05-25 19:45:59 · 3241 阅读 · 0 评论 -
决策树算法预测森林植被
算法介绍回归和分类回归算法和分类算法通常会被联系在一起,因为两者都可以通过一个或者多个值来预测一个或者多个值 he 为了能够做出预测,两者需要从一组输入和输出中学习预测规则,在学习过程中需要告诉它们问题以及问题的答案 因此,回归和分类都属于监督学习类的算法回归是预测一个数值型的结果,例如温度,成绩等 分类是预测一个标号或者类别,例如邮件是否为辣鸡邮件,一个人是属于哪个人种这里将使用决策树和原创 2016-05-07 08:58:41 · 3751 阅读 · 1 评论 -
KMeans算法检测网络异常入侵
非监督学习技术在决策树算法预测森林植被中 我们可以体会到属于监督学习的分类和回归技术的强大,可以预测“即将发生”的事情 使用监督学习技术有一个很关键的前提:需要大量的数据对模型进行训练,模型能够从已知的数据中学习规律进而预测未知的数据然而在某些场景下,并不是都能提供监督学习所需要的样本数据来训练模型,有可能只能给出部分正确的输出,甚至一个输出都没有 这种情况下,监督学习的技术就不能够使用了此时原创 2016-05-09 17:09:08 · 11021 阅读 · 2 评论 -
Spark分布式计算引擎的应用
什么是分布式计算基本概念和集中式计算相反,分布式计算的一个计算过程将会在多台机器上进行。组件之间彼此进行交互以实现一个共同的目标,把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,再上传运算结果后,将结果统一合并得出数据结论。简单说就是1个人干活和100个人干活的区别。分布式计算是一门计算机科学的研究课题,涉及到许多分支技术(CS模型、集群技术、通用型分布式计算环境等)。...原创 2018-12-06 20:06:09 · 1854 阅读 · 2 评论 -
Spark最佳实践
前言本文主要分为四个部分:分布式计算概览:第一章将会从基础的 分布式计算理论 开始,讨论一个分布式计算系统需要实现哪些 主要的功能,以及业界通用的解决方案,并在最后简单扩展了下分布式计算系统的发展历程。这部分主要为开发人员 奠定分布式计算系统的重要理论概念。Spark技术细节:基于第一章讨论的理论知识,在第二章中我们将会深入讨论Spark是如何 通过从逻辑执行图转化为物理执行图 来实现分布...原创 2019-10-11 10:34:48 · 13804 阅读 · 0 评论 -
Spark(四) -- Spark工作机制
以一个简单的WordCount代码为例sc.textFile("hdfs://...").flatMap(_.split(" ")).map(_,1).reduceByKey(_+_).map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).saveAsTextFile("hdfs://....")以上代码的作用是读取指定位置的文件,原创 2015-05-14 23:38:56 · 4838 阅读 · 0 评论 -
Spark(六) -- Spark计算模型
What is RDD? A Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构 在Spark上,针对各种各样的计算场景存在着各种各种的RDD,这些RDD拥有一些共同的操作,例如map,filter,persist等,就好像RDDs都是一个总RDD的子类一样,拥有所有原创 2015-05-17 12:57:00 · 3052 阅读 · 0 评论 -
Spark(二) -- Spark简单介绍
spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的ma原创 2015-05-11 20:52:16 · 3156 阅读 · 0 评论 -
maven的安装和eclipse的配置以及构建mahout基本项目
maven介绍在此略过下载地址:点击打开链接windows下载xxx-bin.zip文件linux下载xxx-bin.tar.gz这里以windows为例下载完成直接解压到一个目录下计算机--右键--属性--高级系统设置--环境变量--在系统变量中新建M2_HOME,值为maven解压的路径在系统变量PATH中新增,%M2_HOME%\bin注意反斜原创 2015-04-21 20:12:24 · 2102 阅读 · 0 评论 -
Spark(一)-- Standalone HA的部署
首先交代一下集群的规模和配置 集群有六台机器,均是VM虚拟机,每台256M的内存(原谅楼主物理机硬件不太给力) 主机名分别是cloud1~cloud6 每台机器上都装有jdk6,和hadoop-2.2.0 其中cloud4~cloud6上装有zookeeper cloud1为hdfs文件系统的启动节点 cloud3为yarn资源管理的启动节点 (注意每台机器都配置好SSH免密码登录,可原创 2015-05-11 00:16:48 · 2682 阅读 · 0 评论 -
基于Spark Mllib,SparkSQL的电影推荐系统
本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下: 1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据 2.我在一个电影网站上看了几部电影,并都为其做了评分操作(0-5分) 3.该电影网站的推荐系统根据我对那几部电影的评分,要预测出原创 2015-05-27 20:46:03 · 11843 阅读 · 16 评论 -
Spark(十二) -- Spark On Yarn & Spark as a Service & Spark On Tachyon
Spark On Yarn:从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度 进而可以实现不止Spark,多种处理框架并存工作的场景部署Spark On Yarn的方式其实和Standalone是差不多的,区别就是需要在spark-env.sh中添加一些yarn的环境配置,在提交作业的时候会根据这些配置加载yarn的信息,然后将作业提交到yarn上进行原创 2015-05-29 22:44:13 · 2509 阅读 · 0 评论 -
Spark(七) -- Scala快速入门
Scala作为Spark的开发语言,想要成为Spark高手,精通Scala是必须要走的一条路 然后一门语言并不是你想精通就能够精通的,更何况是Scala这种面向对象又面向函数的编程语言,个人觉得其学习的门槛会比C#,Java等面向对象语言要高 所以,这篇文章是建立在有一点编程语言知识的基础上的(如学过C#或者Java等),其实所有语言都是大同小异的,学会了一门语言在学其他的就不会像刚开始那么吃力原创 2015-05-18 22:55:27 · 15466 阅读 · 0 评论 -
Spark(八) -- 使用Intellij Idea搭建Spark开发环境
Intellij Idea下载地址: 官方下载 选择右下角的Community Edition版本下载安装即可本文中使用的是windows系统 环境为: jdk1.6.0_45 scala2.10.5在网上下载jdk和scala的安装包双击运行安装即可注意:如果之后要将scala文件打包成jar包并在spark集群上运行的话,请确保spark集群和打包操作所在机器 环境保持一致!不然运行j原创 2015-05-24 20:07:58 · 15580 阅读 · 0 评论 -
Spark(九) -- SparkSQL API编程
Text文本文件测试一个简单的person.txt文件内容为:JChubby,13Looky,14LL,15分别是Name和Age在Idea中新建Object,原始代码如下:object TextFile{ def main(args:Array[String]){ }}SparkSQL编程模型:第一步: 需要一个SQLContext对象,该对象是SparkSQL操作的入口原创 2015-05-24 23:15:21 · 4767 阅读 · 4 评论 -
基于Spark机器学习和实时流计算的智能推荐系统
概要:随着电子商务的高速发展和普及应用,个性化推荐的推荐系统已成为一个重要研究领域。 个性化推荐算法是推荐系统中最核心的技术,在很大程度上决定了电子商务推荐系统性能的优劣,决定着是否能够推荐用户真正感兴趣的信息,而面对用户的不断提升的需求,推荐系统不仅需要正确的推荐,还要实时地根据用户的行为进行分析并推荐最新的 结果。 实时推荐系统的任务就是为每个用户,不断地、精准地推送个性化的服务,甚至到达原创 2015-06-28 23:26:37 · 16656 阅读 · 26 评论 -
Spark(十一) -- Mllib API编程 线性回归、KMeans、协同过滤演示
本文测试的Spark版本是1.3.1在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector:Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Double数据的数组 Vector分为两种,分别是密集型和稀疏型 创建方式如下: val array:Array[Double] = ... val vector原创 2015-05-27 19:33:27 · 4255 阅读 · 0 评论