![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
郭惠姗
这个作者很懒,什么都没留下…
展开
-
hadoop、kafka、spark的进程挂掉的问题以及解决方案
hadoopnamenode http服务的端口:50070namenode 接收Client连接的RPC端口,用于获取文件系统metadata信息:8020JobHistory Server http服务端口:19888进程:namenode:namenode 相当于一个领导者,负责调度 比如你需要存一个640m的文件 如果按照64m分块 那么namenode就会把这10个块(这里不考虑副本)分配到集群中的datanode上 并记录对于关系 。当你要下载这个文件的时候namenode就知道在原创 2020-08-31 20:26:42 · 1473 阅读 · 0 评论 -
IDEA中控制日志输出
控制日志输出在pom.xml中添加log4j的依赖 <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId> <version>2.3</version> </dependency>原创 2020-07-03 12:29:34 · 1291 阅读 · 0 评论 -
不能为虚拟电脑xxxx打开一个新的任务解答
在使用virtualbox时开启一个虚拟电脑之后,显示不能开启,弹框----->不能为虚拟电脑xxxx开启一个新的任务原因是为clus13改变了编组,导致文件缺失不充分,这时候进行文件的补充就可以了。(附图片)...原创 2020-03-04 19:02:04 · 2589 阅读 · 1 评论 -
Incompatible Jackson version: 2.9.8解决方案
在运行spark连接kafka的示例代码的时候,报Incompatible Jackson version: 2.9.8解放方案:版本不兼容,Jackson:是一个专门处理JSON的相关工具包,国外都使用这个包我们下载这个包:jackson-module-scala_2.11-2.9.8.jar;jackson-core网站:https://mvnrepository.com/artifac...原创 2020-02-28 19:40:11 · 953 阅读 · 1 评论 -
spark的优化
背景为什么需要调优??程序都是能跑的,集群还是那个集群,但是有可能另外一个会调优的人和你写的代码的运行的速度要几倍甚至几十倍1.开发调优1.1 原则一:避免创建重复的RDD我们有一份数据 ,student.txt第一个需求 :wordCount val stuRDD = sc.textFile(“e://sparkData//student.txt”)第二个需求:算有多少个学生 ...原创 2020-02-12 19:09:55 · 171 阅读 · 0 评论 -
sparkRDD
什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的属性一组分区(Partition),即数据集的基本组成单位一个计算每个分区的函数RDD之间的依赖关系一个Partitioner,即RDD的分片函数一个列表,存储存取每个Pa...原创 2020-01-03 20:32:59 · 94 阅读 · 0 评论 -
Spark配置之历史服务器(HistoryServer)
为什么要配置历史服务器DriverProgram:客户端;提交一个应用程序(application)以后,再提交一次,就无法查看之前的提交信息了;使用历史服务器就可以具体配置过程如下:现有客户机(clus10,clus11,clus12,clus13)首先启动zookeeperbin/zkServer.sh startbin/zkServer.sh status查看状态(一个leade...原创 2019-12-30 20:09:55 · 2389 阅读 · 0 评论 -
Spark的3种运行模式:单机模式,standalone模式(高可用),yarn模式
spark运行模式之单机模式单机版本(local模式)1.在一台虚拟机上上传spark压缩包到/opt/module/下2.解压 tar -zxvf 压缩包名字 tar -xzvf spark-2.4.4-bin-hadoop2.7.tgz3.重命名解压后的文件mv spark-2.4.4-bin-hadoop2.7/ spark4.删除压缩包,节省空间 rm -rf spa...原创 2019-12-28 10:32:05 · 1897 阅读 · 0 评论 -
初识spark
为什么学习spark是因为高并发:双十一,春运抢火车票,交通,电信这些数据都存储到数据库中占用磁盘空间很大问题:所有的数据在一台电脑上磁盘存储不下,CPU+内存无法读取大文件hadoop架构主要处理的是离线数据,并不是实时的。hive太慢hbase存储的是非结构化数据(和mysql不一样)无法处理实时的问题:路况,双十一年会,小米(饥饿营销)spark擅长于实时计算,Ap...原创 2019-12-26 19:24:09 · 84 阅读 · 0 评论