cjmn1168-CSDN博客

原创史上最简单的spark系列教程

什么是spark? 网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点: Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度 Spark可作为独立集群部署（需要相应存储层的配合），或可与Hadoop集成并取代MapReduce引擎与MapReduce不同，Spark的数据处理工作全部在内存中进行，只在一开始将数据读入内存，以及将最.

2020-09-10 15:43:18 1026

原创 PySpark︱DataFrame操作指南：增/删/改/查/合并/统计与数据处理

笔者最近需要使用pyspark进行数据整理，于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。文章目录 1、-------- 查 -------- --- 1.1 行元素查询操作 --- **像SQL那样打印列表前20元素** **以树的形式打印概要** **获取头几行到本地：** **查询总行数：** 取别名 **查询某列为null的行：** **输出list类.

2020-09-10 11:59:04 349

原创 spark原理解析和spark core

spark原理解析解析一：resilient distributed dataset(RDD) resilient distributed dataset(RDD):弹性分布式数据集，有容错机制可并行执行。分布式即体现在每个rdd分多个partition，每个partition在执行时为一个task，会被master分配到某一个worker执行器（Executor）的某一个core中。弹性体现在流水线思想（pipe），即rdd方法分为transformations和actions方法，两者的..

2020-09-10 11:47:57 196

原创 Spark Streaming 介绍及架构——基础篇

1 概述官方网站Spark Streaming是Spark core API的扩展，支持实时数据流的处理，并且具有可扩展，高吞吐量，容错的特点。数据可以从许多来源获取，如Kafka，Flume，Kinesis或TCP sockets，并且可以使用复杂的算法进行处理，这些算法使用诸如map，reduce，join和window等高级函数表示。最后，处理后的数据可以推送到文件系统，数据库等。实际上，您可以将Spark的机器学习和图形处理算法应用于数据流。总的来说我们可以从三点进行考虑：输入—–计.

2020-09-10 11:35:50 488

原创 Spark Streaming初步使用以及工作原理详解

一、流式计算 1.什么是流？ Streaming：是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断地送出，使用户听到的声音或看到的图象十分平稳，而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。 2.常见的流式计算框架 Apache Storm Spark Streaming Apache Samza 上述三种实时计算系统都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，它们的共同特色在于：允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机

2020-09-10 11:23:43 315

原创 Spark原理详解

Hadoop存在缺陷：基于磁盘，无论是MapReduce还是YARN都是将数据从磁盘中加载出来，经过DAG，然后重新写回到磁盘中计算过程的中间数据又需要写入到HDFS的临时文件这些都使得Hadoop在大数据运算上表现太“慢”，Spark应运而生。 Spark的架构设计： ClusterManager负责分配资源，有点像YARN中ResourceManager那个角色，大管家握有所有的干活的资源，属于乙方的总包。 WorkerNode是可以干活的节点，听大管家ClusterM..

2020-09-10 11:19:53 234

原创基于Spark的电影推荐系统（包含爬虫项目、web网站、后台管理系统以及spark推荐系统）

一、爬虫开发环境：pycharm + python3.6 软件架构：mysql + scrapy 运行环境：本次爬取的内容在外网，所以需先翻墙后才能成功运行。项目架构：二、电影网站开发环境：IntelliJ IDEA + maven + git + linux + powerdesigner 软件架构：mysql + mybatis + spring + springmvc 项目描述：懂你电影推荐网站是一个基于SSM框架的web项目，类似当前比较流行的豆瓣。用户可以在...

2020-09-09 17:31:31 1128 1

原创 spark原理：概念与架构、工作机制-大数据

一、Hadoop、Spark、Storm三大框架比较 Hadoop:离线海量数据批处理,基于磁盘的 Spark：基于内存。 Spark特点：运行速度快，使用DAG执行引擎以支持循环数据流与内存计算， 2、容易使用：多种语言编程，通过spark shell进行交互式编程 3、通用性：提供了完整而强大的技术栈，包括sQL查询、流式计算、机器学习和图算法组件 4、运行模式多样：可运行在独立集群模式中，可以运行与hadoop中，也可以运行在AmazonEC2等云环境中，并可以访问HDFS、HBase、H

2020-09-09 17:29:08 361

原创 Spark初级入门（2）：解析Scala集合操作总结

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能

2020-09-09 17:26:05 139

原创 Spark知识点总结

绪论 Spark 则是加州大学伯克利分校AMP实验室所开源的类Hadoop MapReduce的通用并行框架, 专门用于大数据量下的迭代式计算。是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop, Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消耗. Spark 则是将数据一直

2020-09-09 17:22:14 189

原创 spark的介绍和pyspark的使用

spark系列

2020-09-09 14:58:57 1125

cjmn1168的博客