大数据
文章平均质量分 65
daisyyyyyyyy
这个作者很懒,什么都没留下…
展开
-
PySpark tutorial 学习笔记3——Broadcast&Accumulator
4 PySpark——Broadcast&Accumulator对于并行处理,Apache Spark使用共享变量。 当驱动程序将任务发送到集群上的执行程序时,共享变量的副本将在集群的每个节点上运行,以便可以将其用于执行任务。Apache Spark支持两种类型的共享变量 - Broadcast 和 AccumulatorBroadcast广播变量用于跨所有节点保存数据副本...原创 2018-07-23 10:30:14 · 892 阅读 · 0 评论 -
PySpark tutorial 学习笔记1——概述,SparkContext
Spark:https://spark.apache.org/PySpark官方文档:http://spark.apache.org/docs/latest/api/python/pyspark.html1.PySpark简介1.1 Spark - 概述 Apache Spark是一个闪电般快速的实时处理框架。它可以使用内存计算以实时分析数据。由于Apache Hado...原创 2018-07-19 10:17:23 · 1859 阅读 · 0 评论 -
pyspark系列--pyspark读写dataframe
pyspark读写dataframe1. 连接spark2. 创建dataframe2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取3. 保存数据3.1. 写到csv3.2. 保存到parquet3.3. 写到hive3.4. 写...转载 2018-07-05 16:04:06 · 5314 阅读 · 1 评论 -
PySpark tutorial 学习笔记4——SparkConf,SparkFiles,StorageLevel
SparkConf要在本地/集群上运行Spark应用程序,需要设置一些配置和参数,这是由SparkConf提供的。 它提供运行Spark应用程序的配置。 以下代码块包含PySpark的SparkConf类的详细信息。class pyspark.SparkConf ( loadDefaults = True, _jvm = None, _jconf = None)...原创 2018-07-24 10:22:53 · 4596 阅读 · 0 评论 -
PySpark tutorial 学习笔记5——MLlib及在协同过滤中的应用
Apache Spark提供了一个名为MLlib的机器学习API。 PySpark也在Python中使用这个机器学习API。它支持不同类型的算法,如下所述 - mllib.classification - spark.mllib包支持二分类,多分类和回归分析的各种方法。包含分类中一些最流行的算法如随机森林,朴素贝叶斯,决策树等。mllib.clustering - 聚类是一种无监督的学习问...原创 2018-07-24 10:39:40 · 935 阅读 · 0 评论 -
PySpark tutorial 学习笔记6——Serializers
SerializersSerializers用于Apache Spark的性能调优。 通过网络发送或写入磁盘或持久存储在内存中的所有数据都应该序列化.PySpark支持用于性能调优的自定义序列化程序。 PySpark支持以下两个序列化程序 - MarshalSerializer使用Python的Marshal Serializer序列化对象。 此序列化程序比PickleSeriali...原创 2018-07-25 11:09:58 · 503 阅读 · 0 评论 -
PySpark tutorial 学习笔记2——RDD
3 PySpark RDD Resilient Distributed Datasets(RDD) 弹性分布式数据集。它们是在多个节点上运行和操作并且在集群上进行并行处理的元素。 RDD是不可变元素,这意味着一旦创建了RDD,就无法对其进行更改。 RDD也具有容错能力,因此在发生任何故障时,它们会自动恢复。 可以在这些RDD上应用多个操作来完成某项任务。对开发者而言,RDD可以看作是Sp...原创 2018-07-20 10:42:39 · 399 阅读 · 0 评论 -
hive基本概念原理与底层架构
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用传统的数据管理系统,它是难以加工大型数据。因此,Apache软件基金会推出了一款名为Hadoop的解...转载 2018-08-06 14:22:57 · 8914 阅读 · 1 评论