Spark学习
文章平均质量分 63
LittleFish0820
江南可采莲,莲叶何田田,鱼戏莲叶间。
展开
-
【Scala】面向对象
Scala是纯粹的面向对象编程语言原创 2022-09-14 14:57:31 · 363 阅读 · 0 评论 -
【Scala】快速入门
Scala变量,控制,异常,文件读写,控制台输入输出,异常处理,常用数据结构,模式匹配等原创 2022-09-13 11:35:36 · 266 阅读 · 0 评论 -
【Scala】安装与IDEA配置
Scala安装与IDEA配置原创 2022-09-11 22:38:21 · 200 阅读 · 0 评论 -
四、SparkSQL
Spark SQLSpark SQL可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作可以支持大量的数据源和数据分析算法,组合使用Sparl SQL和Spark MLlibDataFrameSpark SQL使用的数据抽象是DataFrameSparkSessionDataFrame创建样例>>> df = spark.read.json("file:///usr/local/spark/examples/src/main/resour原创 2021-11-27 19:07:54 · 910 阅读 · 0 评论 -
Ubuntu18.04安装JupyterNotebook
目录安装Anaconda配置JupyterNotebookJupyterNotebook与Pyspark交互安装AnacondaAnaconda清华大学镜像下载Anaconda3-2020.02-Linux-x86_64.sh $ cd ~/下载 $ bash Anaconda3-2020.02-Linux-x86_64.sh浏览许可证,回复yes按回车默认安装路径conda初始化 yes 下载时不要按回车,会自动no$ conda -V$ anaconda -V$原创 2021-11-26 20:55:42 · 2566 阅读 · 2 评论 -
实验2 Spark和Hadoop的安装
实验2 Spark和Hadoop的安装实验目的掌握在Linux虚拟机中安装Hadoop和Spark的方法。熟悉HDFS的基本使用方法。掌握使用Spark访问本地文件和HDFS文件的方法。实验平台Ubuntu18.04Spark2.4.0Hadoop2.7.7Python3.6.91、安装Hadoop和Spark零基础:参考林子雨《Spark编程基础》网站实验指南已入门:鄙人博客Spark伪分布式安装大全,快速搭建(我绝对没有打广告!)2、HDFS常用操作启动Ha原创 2021-11-26 12:06:54 · 2903 阅读 · 0 评论 -
三、RDD编程 实验1 pyspark交互式编程
RDD编程 实验1 pyspark交互式编程学习资料 林子雨《Spark编程基础》不要老想着转换为(key, value)对!不要老想着转换为(key, value)对!不要老想着转换为(key, value)对!怎么简单怎么来!from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("My App")sc = SparkContext(conf = conf)原创 2021-11-26 09:34:39 · 3285 阅读 · 0 评论 -
spark伪分布式搭建大全
VMware低端配置1个处理器,2个内核;1024MB内存;30GB硬盘;一个低版本iso文件高端安装2个处理器,2个内核;2048内存;50GB硬盘;一个新版本iso文件顶配 越高越好我选择第一种。除了上述说的配置之外,还有注意稍后安装操作系统,其余一路点击确定即可。Ubuntu选择中文什么都不要勾分区设置swap 2GB/ 28GB 逻辑 ext4时区用户名 密码123456(怕忘了)等待安装输入法切换 直接按shi原创 2021-11-22 23:00:16 · 1721 阅读 · 0 评论 -
三、RDD编程(2)
目录数据读写文件数据读写读写Hbase数据综合实例习题数据读写文件数据读写>>> textFile = sc.textFile("file:///opt/module/spark/mycode/rdd/word.txt")>>> textFile.first()'Hello Hadoop'#若word.txt不存在,直到执行才会报错'''saveAsTextFile() 1. 参数是目录名称不是文件名称,因为要分区2. 要求目录名称事先不存在,如果存原创 2021-11-21 09:40:05 · 446 阅读 · 0 评论 -
三、RDD编程(1)
目录RDD编程基础RDD创建RDD TransformationRDD Action持久化分区WordCount实例键值对RDD常用的键值对Transformation综合实例RDD编程基础RDD创建从文件系统中加载数据创建RDD>>> lines = sc.textFile("file:///opt/module/spark/mycode/rdd/word.txt")>>> lines.foreach(print)Spark is fast原创 2021-11-20 17:30:34 · 616 阅读 · 0 评论 -
Hadoop 和 Spark踩坑记21.11.19(一)
已经安装好Hadoop集群,心血来潮想改名要改的地方windows 的 hostshadoophostshostnamecore-site.xml hdfs-site.xml mapred-site.xml yarn-site.xmlworkers (卡半天原来是这里没改)密钥也要重新发一遍至于启动集群后web端为什么还是原来的主机名,没有解决,但是把主机名换成IP就可访问Spark Python版本更新我一直按着林子雨《Spark编程基础》,都学到第四章了才发现,我的Spar原创 2021-11-19 17:51:18 · 843 阅读 · 0 评论 -
二、Spark的设计与运行原理
目录Spark特点Spark生态系统Spark CoreSpark SQLSpark StreamingStructured StreamingMLlibGraphXSprak应用场景Spark运行架构1、一些名词2、架构设计3、Spark的基本运行流程4、RDD的设计与运行原理RDD设计背景RDD概念RDD特性RDD之间的依赖关系阶段的划分RDD运行过程Spark的四种部署模式习题Spark特点运行速度快:Spark使用DAG执行引擎,支持循环数据流与内存计算容易使用:Spark支持使用Scala原创 2021-11-18 16:31:05 · 752 阅读 · 0 评论 -
一、Spark大数据基础 实验1 Linux系统的安装和常用命令
目录安装教程使用Linux系统的常用命令1.切换到目录 /usr/bin2.查看目录/usr/local下所有的文件3.进入/usr目录,创建一个名为test的目录,并查看有多少目录存在4.在/usr下新建目录test1,再复制这个目录内容到/tmp5.将上面的/tmp/test1目录重命名为test26.在/tmp/test2目录下新建word.txt文件并输入一些字符串,保存后退出7.查看word.txt文件内容8.将word.txt文件所有者改为root账号,并查看属性9.找出/tmp目录下文件名为t原创 2021-11-17 19:24:20 · 3754 阅读 · 0 评论 -
一、Spark大数据技术基础
一、Spark大数据技术基础大数据的特点:4V大数据关键技术大数据计算模式代表性大数据技术Hadoop 海量数据的存储与计算SparkSpark与Hadoop的对比Hadoop和Spark的统一部署Flink习题大数据的特点:4V数据量大 Volume大数据摩尔定律数据类型繁多 Variety结构化数据非结构化数据 占90%处理速度快 Velocity数据处理和分析的速度通常要达到秒级响应价值密度低 Value很多有价值的信息都是分散在海量数据中的大数据关原创 2021-11-17 11:23:27 · 1134 阅读 · 0 评论