![](https://img-blog.csdnimg.cn/8f03fd35c4b14fd286763fc5f603aa96.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 62
something about spark
HackerLZH
Big Data,AI,WEB development,which can I make more money by? I will grasp the lifeblood of the time!
展开
-
Spark RDD 编程指导(Python API)
通过并行集合创建RDDparallelize和reducedata = [1, 2, 3, 4, 5]distData1 = sc.parallelize(data) # 此时distData1就是一个RDDdistData1.reduce(lambda a, b: a + b) # 将所有元素相加# reduce(f)是对RDD中的元素通过函数f进行两两操作,产生的值作为新的元素再和RDD中下一个元素一起传递给函数f进行两两操作,循环往复直到所有元素完成操作,返回最后的值15glom和c原创 2021-05-28 17:25:16 · 546 阅读 · 0 评论 -
pyspark预测网页分类
读取数据from pyspark.context import SparkContext from pyspark.sql.session import SparkSession# 读取文本文件,创建为DataFrame 结构row_df=spark.read.format("csv").option("header","true").option("delimiter","\t").load("train.tsv")print(row_df.count()) # 查看数据条数row_df.pr原创 2021-05-27 10:59:11 · 690 阅读 · 0 评论 -
Spark通过文件数据源创建RDD时对于分区的理解
minPartitions参数用来控制每个文件的分区数,一个文件可能会有多个块,默认一个块对应一个分区,Spark 2.3.0是这么说的。注意,分区数不能少于块,也就是分区数如果设置多了,会出现很多冗余的空闲分区。默认minPartitions=2我们知道Spark如果从hdfs中读取数据,一个块大小默认为128MB,那么有如下结论:如果文件大小不超过128MB,那么无论minPartitions设置为多少,该文件只会有一个分区。如果文件大小为400MB,即大于3倍块大小,那么如果设置min原创 2021-05-23 17:47:31 · 490 阅读 · 1 评论 -
win10系统下jupyter notebook集成pyspark的关键点
我前前后后花了两天时间才终于把环境调正确,以这篇文章叙述一下配置时的关键点。pyspark-shell 有着所有交互式命令行的共同缺点,关掉后,已运行的代码也就随着一起销毁了,不能保存。说到兼具交互式命令行特点、代码保存功能、代码编译运行功能的软件,我们很自然就想到了jupyter notebook。事实上二代目jupyter lab也已经投入使用,但是我没有用它来集成,因为这是我遇到的第一个坑,目前jupyter lab只有高版本的Python才能下载(比如Python 3.8),而Spark截止到目前原创 2021-05-21 13:06:01 · 486 阅读 · 3 评论 -
Spark运行时自定义derby.log和metastore_db的生成路径
如果不手动设置一下,那么每次运行Spark时都会在当前所在目录生成derby.log和metastore_db文件,不方便集中管理。这种随意性与冗余对于程序员来说是不能接受的,所以必须自定义设置,使之统一生成在唯一路径下。在spark/conf目录下,将spark-defaults.conf.template复制为spark-defaults.conf,在该配置文件最后一行写入spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby(tmp/原创 2021-05-19 13:57:40 · 1356 阅读 · 0 评论 -
Spark大数据技术与应用
第一章1.Spark是什么概念Spark是一个大规模数据处理的统一分析引擎。特点迅速、通用、易用、支持多种资源管理器迅速Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度。通用可以用Spark进行sql查询、流式计算、机器学习、图计算。易用支持多种编程语言API,包括Java、Scala、Python、R支持多种支援管理器Spark可以使用单机集群模式来运行,也可以在Hadoop YARN、Apache Mesos、Kubernates上运行,或者在“云”里运行。S原创 2021-04-24 18:22:37 · 4805 阅读 · 5 评论