![](https://img-blog.csdnimg.cn/2021050920064998.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
PySpark
文章平均质量分 81
大数据学习
张先生-您好
学习的同时记录,记录的同时分享,分享的同时交流,交流的同时学习。
展开
-
PySpark之SparkMLlib基本操作
PySpark之SparkMLlib基本操作 前言 Spark的引入: 传统的机器学习算法,由于技术和单机存储的限制,只能在少量数据上使用,依赖于数据抽样 大数据技术的出现,可以支持在全量数据上进行机器学习 机器学习算法涉及大量迭代计算 基于磁盘的MapReduce不适合进行大量迭代计算 基于内存的Spark比较适合进行大量迭代计算 Spark的优点: Spark提供了一个基于海量数据的机器学习库,它提供了常用机器学习算法的分布式实现 开发者只需要有Spark 基础并且了解机器学习算法的原理,以及方法原创 2021-05-20 09:56:11 · 890 阅读 · 0 评论 -
PySpark之Structured Streaming基本操作
PySpark之Structured Streaming基本操作 思想:将实时数据流视为一张正在不断添加的数据的表,可以把流计算等同于在一个静态表上的批处理查询,Spark会在不断添加数据的无界输入表上运行计算,并进行增量查询。 编写Structured Streaming程序的基本步骤包括: 导入pyspark模块 创建SparkSession对象 创建输入数据源 定义流计算过程 启动流计算并输出结果 两种处理模型: (1) 微批处理 (2) 持续处理 词频统计 目标:一个包含很多英文语句的数据流远远原创 2021-05-16 10:14:20 · 1488 阅读 · 2 评论 -
PySpark之SparkStreaming基本操作
PySpark之SparkStreaming基本操作 前言 流数据具有如下特征: •数据快速持续到达,潜在大小也许是无穷无尽的 •数据来源众多,格式复杂 •数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储 •注重数据的整体价值,不过分关注个别数据 •数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序 流计算(数据的价值随着时间的流式而降低): 实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息 流计算处理流程(强调实时性): 数据实时采集—>原创 2021-05-11 15:46:15 · 1444 阅读 · 0 评论 -
PySpark之MySQL连接
PySpark之MySQL连接 说明:使用Spark SQL读写数据库Spark SQL可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源。 from findspark import init init() from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession import os spark = SparkSession.builder.appName("rea原创 2021-05-07 14:01:45 · 1490 阅读 · 0 评论 -
PySpark之SparkSQL基本操作
SparkSQL DataFrame的优点: DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能 Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询 DataFrame和RDD的区别: RDD是分布式的Java对象的集合,但是,对象内部结构对于RDD而言却是不可知的 DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息 import findspark find原创 2021-05-06 15:47:03 · 3538 阅读 · 0 评论 -
PySpark之RDD基本操作
PySpark之RDD基本操作 Spark是基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储,但是,spark的缺点是:吃内存,不太稳定 总体而言,Spark采用RDD以后能够实现高效计算的主要原因如下: (1)高效的容错性。现有的分布式共享内存、键值存储、内存数据库等,为了实现容错,必须在集群节点之间进行数据复制或者记录日志,也就是在节点之间会发生大量的数据传输,这对于数据密集型应用而言会带来很大的开销。在RDD的设计中,数据只读,不可修改,如果需要修改数据,必须原创 2021-05-02 11:43:24 · 2664 阅读 · 0 评论