Spark
文章平均质量分 65
诗蕊
Put your heart into it
展开
-
Spark RDD (二)
在Spark RDD(一)https://blog.csdn.net/katherine_hsr/article/details/80743626中,介绍了RDD的原理,创建RDD和全局作用域和局部作用域,这里我们介绍一下RDD的操作(Operations)。 我们可以通过转换来调整数据集,包括映射、筛选、连接、转换数据集中的值。 RDD支持两种类型的操作:转换:是从一个已有的数据集中建立一个...原创 2018-06-22 11:52:27 · 359 阅读 · 0 评论 -
spark SQL and DataFrame(一)
1. SparkSession需要使用spark SQL之前需要SparkSession类,可以通过 SparkSession.builder来创建一个SparkSession。如果SparkContext已经存在,SparkSession就会重用它;如果不存在,Spark就会创建一个新的SparkContext。在每一个JVM中只能有一个SparkContext,但是在一个Spark程序中可...原创 2018-06-29 21:27:02 · 416 阅读 · 0 评论 -
linux虚拟机搭建pyspark环境
搭建linux虚拟机下载virtualbox,下载地址:https://www.virtualbox.org/wiki/Downloads,然后安装。 下载centos操作系统,http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso,然后在virtualbox中新建虚拟机。 创建名字...原创 2018-06-30 23:37:36 · 6287 阅读 · 0 评论 -
linux虚拟机中执行写好的pyspark程序
上一篇文章中已提到如何在linux中搭建pyspark环境,如果需要的同学请查看linux虚拟机搭建pyspark环境文章,本次主要讲解如何直接在环境中能够直接使用已写好的py文件直接运行。文件共享虚拟机和主机需要配置文件共享,首先将virtualbox安装增强工具,安装之前需要执行以下命令,提前安装好需要的程序yum updateyum install gccyum inst...原创 2018-07-01 23:54:38 · 2474 阅读 · 0 评论 -
Spark RDD (一)
1. RDD基本原理弹性式分布数据集RDD是Apache Spark的核心,它是一组不可变的JVM(java virtual machine)对象的分布集,可以执行高速运算。该数据集是分布式的,基于某种关键字该数据集被划分成若干块,并且分发到执行器节点,这样使得数据集能够高速执行运算。并且RDD对于每个块所做的所有转换都跟踪记录到日志中,在发生错误或者部分数据丢失时可以回退并重新进行计算,所以...原创 2018-06-20 11:40:40 · 373 阅读 · 0 评论 -
pyspark构建简单模型(RandomForest&LogisticRegression)
本文记录了用pyspark构建一个简单的模型的过程。1. 读取数据集from pyspark.sql import SparkSessionfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml impor...原创 2018-07-11 05:29:24 · 4311 阅读 · 0 评论 -
pyspark特征工程常用方法(一)
本文记录特征工程中常用的五种方法:MinMaxScaler,Normalization,OneHotEncoding,PCA以及QuantileDiscretizer 用于分箱 原有数据集如下图: 1. MinMaxScalerfrom pyspark.ml.feature import MinMaxScaler# 首先将c2列转换为vector的形式vecAssembler ...原创 2018-07-11 19:28:04 · 11313 阅读 · 2 评论 -
分布式协调服务ZooKeeper
文章目录分布式协调服务的存在意义leader 选举负载均衡ZooKeeper 数据模型层级命名空间WatcherSessionZooKeeper 基本架构ZooKeeper 应用leader 选举分布式队列负载均衡在分布式系统中,服务之间的协调是非常重要的,分布式系统中的leader选举、分布式锁、分布式队列等都需要通过协调服务实现。Hadoop生态系统提供了ZooKeeper。ZooKeepe...原创 2018-12-14 08:08:07 · 783 阅读 · 0 评论 -
资源管理与调度系统YARN(YARN基本架构及原理)
文章目录why YARNMRv1 局限性YARN设计动机YARN 设计思想YARN 基本架构hadoop 2.0引入了数据操作系统YARN,YARN能够将资源按需分配给各个应用程序,大大提高了资源利用率,其次,YARN将短作业和长作业混合部署到一个集群中,并提供了容错、自愿隔离及负载均衡等方面的支持,大大简化了作业和服务的部署和管理成本。why YARNMRv1 局限性可靠性差:MRv1...原创 2018-12-16 15:18:33 · 2094 阅读 · 0 评论