Spark编程基础
文章平均质量分 81
Spark是一个高速通用型的大数据计算框架,支持分布式计算和抽象出一个共享内存抽象 —— 弹性分布式数据集 (RDD)。它采用优化执行引擎和支持多种语言(Java, Scala, Python,此专栏主要使用Scala语言 )来处理大规模数据处理任务,可运行在集群环境中。
潜意识^
大数据专业在读学生
展开
-
Spark的设计与运行原理
Spark是一个开源的大数据处理框架,它最初由加州大学伯克利分校的AMPLab开发,目前由Apache软件基金会进行维护。Spark提供了强大的数据处理功能,支持多种数据源,包括HDFS、Cassandra、HBase、Redis等,同时也提供了灵活的数据处理方式,包括批处理、流处理和机器学习等。原创 2023-06-06 14:55:36 · 413 阅读 · 0 评论 -
scala函数式编程基础
函数式编程是一种编程范式,它强调使用函数来处理数据,而不是像面向对象编程那样使用对象。这种编程范式的核心概念是函数的纯函数和高阶函数。原创 2023-04-17 17:40:02 · 276 阅读 · 0 评论 -
scala面向对象编程
Scala是一门支持面向对象编程(OOP)和函数式编程(FP)的编程语言,其中OOP是其中非常重要的一部分。原创 2023-04-06 15:26:49 · 321 阅读 · 0 评论 -
Scala数据结构
Scala 是一种面向对象的编程语言,支持基于类和对象的数据结构。Scala 中的数据结构包括数组、元组、列表、集合、序列和映射等,同时也提供了可变和不可变两种类型的数据结构。原创 2023-04-06 06:00:00 · 487 阅读 · 0 评论 -
Scala控制结构
Scala 中常用的控制结构包括if-elseforwhile和match等。原创 2023-04-05 19:00:00 · 96 阅读 · 0 评论 -
Scala输入输出
本文将介绍 Scala 的输入输出方法,包括控制台输入、文件读写等。原创 2023-04-05 14:06:11 · 1715 阅读 · 0 评论 -
Scala基本数据类型和变量
Scala 的基本数据类型包括整型(Int)、长整型(Long)、短整型(Short)、字节(Byte)、浮点型(Float)、双精度浮点型(Double)、字符型(Char)和布尔型(Boolean),定义变量时需要指定变量的数据类型,并且变量可以是可变或不可变的。原创 2023-04-05 06:00:00 · 979 阅读 · 0 评论 -
Scala简介及安装
Scala 是一种集成了面向对象编程和函数式编程思想的静态类型编程语言,它运行在 Java 虚拟机 (JVM) 上,可以与 Java 无缝地进行交互。Scala 由瑞士洛桑联邦理工学院 (EPFL) 的 Martin Odersky 等人开发,并于2003年首次发布。Scala 的名字来自于“Scalable Language”(可伸缩语言)的缩写。Scala 的语法比较复杂,但是也更加灵活和强大。Scala 在分布式系统、大数据处理和 Web 编程等方面都有广泛的应用。原创 2023-04-04 19:30:41 · 159 阅读 · 0 评论 -
Linux系统的安装
(以vmvare安装centos7为例,其他类似)原创 2023-04-04 11:00:00 · 53 阅读 · 0 评论 -
代表性大数据技术
Spark已被广泛应用于机器学习、数据分析等领域。常见的NoSQL数据库包括MongoDB、Cassandra、Redis等,这些数据库具有高性能、可扩展性和高可用性等特点,被广泛应用于Web应用程序、移动应用、物联网等场景。Tableau支持多种数据源,包括Hadoop、MySQL、Hive等,同时提供交互式的分析和导出功能,被广泛应用于商业智能、数据分析等领域。易于调试和优化:Spark提供了广泛的调试和优化工具,这使得开发人员可以很方便地找到和解决代码中的问题,并提高程序的性能。原创 2023-04-04 06:00:00 · 234 阅读 · 1 评论 -
大数据的概念与关键技术
大数据是指在数据规模、数据存储、数据处理和应用场景方面超出传统数据处理能力范围的数据集合,具有“三V”特征,即数据量大(Volume)、处理速度快(Velocity)、数据类型多样(Variety)。为了应对这些挑战,发展了一些关键技术。原创 2023-04-03 19:53:28 · 326 阅读 · 0 评论