spark
小茹_1107
这个作者很懒,什么都没留下…
展开
-
Spark Streaming流式计算
11Spark Streaming’s Kafka libraries not found in class path. Try one of the fo$SPARK_HOME下面原创 2019-11-26 11:14:38 · 273 阅读 · 0 评论 -
spark分布式大数据计算7一spark和pyspark的安装和启动
一、安装spark前面我们已经学习了spark的基础知识了,那我们就来实际操练一下。首先安装Python的spark工具pip install pyspark 我这里没有输入需要安装的版本,默认安装的是最新版本2.4.4,你也可以写入你具体想要安装的版本:pip install pyspark==2.4.4 #2.4.4就是你想要安装的具体版本号200多兆呢,耐心等待吧...原创 2019-11-19 16:17:29 · 855 阅读 · 0 评论 -
spark分布式大数据计算6一数据处理
在正式建模之前,需要非常了解建模所要用到的数据,本文主要介绍一些常见的数据观测和处理方法。1.数据观测(1)统计数据表中每一列数据的缺失率%pyspark #构造原始数据样例df = spark.createDataFrame([ (1,175,72,28,'M',10000), (2,171,70,45,'M',None), (3,172,None,None,...转载 2019-11-19 14:06:58 · 143 阅读 · 0 评论 -
spark分布式大数据计算5一文本特征处理
今天有处理文本特征数据,刚开始因为不太熟悉pyspark环境下处理文本数据的流程,导致踩了不少的坑。在这里记录一下,以供以后参考。先写下整个处理的流程:(1)从数据库中提取数据(2)将提取的数据转换成DataFrame格式(3)使用tokenizer分词(4)将文本向量转换成稀疏表示的数值向量(字符频率向量)(5)将tokenizer得到的分词结果转换数字向量实现代码如下所示:%p...转载 2019-11-19 11:51:49 · 183 阅读 · 0 评论 -
spark分布式大数据计算4一DataFrame基本操作
https://blog.csdn.net/FlySky1991/article/details/79569846DataFrame是一种分布在集群节点中的不可变的分布式数据集,这种数据集是 以RDD为基础的,其被组织成指定的列,类似于关系数据库的二维表格和Python中的Pandas.DataFrame。DataFrame本身带有Schema元信息,即DataFrame所表示的二维表数据集的每...转载 2019-11-19 11:48:04 · 669 阅读 · 0 评论 -
spark分布式大数据计算3一RDD基本操作
https://blog.csdn.net/FlySky1991/article/details/79556131RDD(弹性分布式数据集)是一组不可变的JVM对象的分布集,这些对象允许作业非常快速地执行计算,是Apache Spark的核心。本文主要结合简单的例子介绍下RDD的基本操作。一、创建RDD在PySpark中,有两种方式可以创建RDD,一种是用.parallelize()集合(元...转载 2019-11-19 11:27:17 · 566 阅读 · 0 评论 -
spark分布式大数据计算2一spark基础原件
本文参考自:https://blog.csdn.net/FlySky1991/article/details/79493830感谢原文作者的细心整理和无私分享。一、Spark 作业任何Spark应用程序都会分离主节点上的单个驱动进程(包含若干个作业 ),然后将执行进程(包含若干个任务)分配给多个工作节点。驱动进程会确定任务进程的数量和组成,然后任务进程根据DAG(有向无环图)调度器的依赖关系...转载 2019-11-18 19:11:10 · 115 阅读 · 0 评论 -
spark分布式大数据计算1一介绍
https://www.cnblogs.com/hithink/p/9595380.html原创 2019-11-18 16:08:00 · 228 阅读 · 0 评论