Spark_HackerLZH的博客-CSDN博客

Spark

关注

文章平均质量分 62

something about spark

关注数：文章数：6 文章阅读量：9813 文章收藏量：68

作者: HackerLZH

Big Data，AI，WEB development，which can I make more money by? I will grasp the lifeblood of the time!

展开

专栏收录文章

Spark RDD 编程指导(Python API)

通过并行集合创建RDDparallelize和reducedata = [1, 2, 3, 4, 5]distData1 = sc.parallelize(data) # 此时distData1就是一个RDDdistData1.reduce(lambda a, b: a + b) # 将所有元素相加# reduce(f)是对RDD中的元素通过函数f进行两两操作，产生的值作为新的元素再和RDD中下一个元素一起传递给函数f进行两两操作，循环往复直到所有元素完成操作，返回最后的值15glom和c

原创 2021-05-28 17:25:16 · 780 阅读 · 0 评论
pyspark预测网页分类

读取数据from pyspark.context import SparkContext from pyspark.sql.session import SparkSession# 读取文本文件，创建为DataFrame 结构row_df=spark.read.format("csv").option("header","true").option("delimiter","\t").load("train.tsv")print(row_df.count()) # 查看数据条数row_df.pr

原创 2021-05-27 10:59:11 · 804 阅读 · 0 评论
Spark通过文件数据源创建RDD时对于分区的理解

minPartitions参数用来控制每个文件的分区数，一个文件可能会有多个块，默认一个块对应一个分区，Spark 2.3.0是这么说的。注意，分区数不能少于块，也就是分区数如果设置多了，会出现很多冗余的空闲分区。默认minPartitions=2我们知道Spark如果从hdfs中读取数据，一个块大小默认为128MB，那么有如下结论：如果文件大小不超过128MB，那么无论minPartitions设置为多少，该文件只会有一个分区。如果文件大小为400MB，即大于3倍块大小，那么如果设置min

原创 2021-05-23 17:47:31 · 707 阅读 · 1 评论
win10系统下jupyter notebook集成pyspark的关键点

我前前后后花了两天时间才终于把环境调正确，以这篇文章叙述一下配置时的关键点。pyspark-shell 有着所有交互式命令行的共同缺点，关掉后，已运行的代码也就随着一起销毁了，不能保存。说到兼具交互式命令行特点、代码保存功能、代码编译运行功能的软件，我们很自然就想到了jupyter notebook。事实上二代目jupyter lab也已经投入使用，但是我没有用它来集成，因为这是我遇到的第一个坑，目前jupyter lab只有高版本的Python才能下载(比如Python 3.8)，而Spark截止到目前

原创 2021-05-21 13:06:01 · 679 阅读 · 3 评论
Spark运行时自定义derby.log和metastore_db的生成路径

如果不手动设置一下，那么每次运行Spark时都会在当前所在目录生成derby.log和metastore_db文件，不方便集中管理。这种随意性与冗余对于程序员来说是不能接受的，所以必须自定义设置，使之统一生成在唯一路径下。在spark/conf目录下，将spark-defaults.conf.template复制为spark-defaults.conf，在该配置文件最后一行写入spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby(tmp/

原创 2021-05-19 13:57:40 · 1682 阅读 · 0 评论
Spark大数据技术与应用

第一章1.Spark是什么概念Spark是一个大规模数据处理的统一分析引擎。特点迅速、通用、易用、支持多种资源管理器迅速Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度。通用可以用Spark进行sql查询、流式计算、机器学习、图计算。易用支持多种编程语言API，包括Java、Scala、Python、R支持多种支援管理器Spark可以使用单机集群模式来运行，也可以在Hadoop YARN、Apache Mesos、Kubernates上运行，或者在“云”里运行。S

原创 2021-04-24 18:22:37 · 5161 阅读 · 5 评论

Spark

作者: HackerLZH

Spark RDD 编程指导(Python API)

pyspark预测网页分类

Spark通过文件数据源创建RDD时对于分区的理解

win10系统下jupyter notebook集成pyspark的关键点

Spark运行时自定义derby.log和metastore_db的生成路径

Spark大数据技术与应用