是个小布丁
码龄7年
关注
提问 私信
  • 博客:22,712
    动态:13
    22,725
    总访问量
  • 28
    原创
  • 702,406
    排名
  • 4
    粉丝
  • 0
    铁粉

个人简介:擅长大数据又不会做饭的女厨师!

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2017-10-16
博客简介:

Queen0809的博客

博客描述:
Queen0809的博客
查看详细资料
个人成就
  • 获得32次点赞
  • 内容获得19次评论
  • 获得61次收藏
创作历程
  • 28篇
    2021年
成就勋章
TA的专栏
  • spark
    10篇
  • 虚拟机安装
    13篇
  • hadoop
    4篇
  • 大数据
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparkflink
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Yarn模式(重点)-运行流程2 yarn-cluster工作流程

yarn-cluster工作流程
原创
发布博客 2021.05.08 ·
263 阅读 ·
3 点赞 ·
1 评论 ·
1 收藏

Yarn模式(重点)-运行流程2 yarn-client工作流程

yarn-client工作流程
原创
发布博客 2021.05.08 ·
279 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

Yarn模式(重点)-运行流程1

Yarn模式(重点)-运行流程1spark客户端直接连接yarn,不需要额外使用spark集群spark中有yarn-client模式和yarn-cluster模式2.1 两种模式的区别:Driver程序运行的节点不同2.2 yarn-client模式:Driver运行在客户端上,此模式适用于调试,并且可以直接查看结果2.3 yarn-cluster模式:Driver运行在NodeManager的ApplicationMaster上,此模式适用于生产环境...
原创
发布博客 2021.05.07 ·
248 阅读 ·
2 点赞 ·
2 评论 ·
1 收藏

Spark中WordCount案例实操(linux上直接运行)下篇

6.打包jar包6.1 点击Maven --> package 生成jar包6.2 选择不带有依赖的jar包,因为linux系统中有相关环境,如果没有,则选择带有依赖的jar包6.3 将jar包上传到linux系统上(我上传到了/opt/module/spark-yarn/WordCount.jar)7. 编译spark代码进行运行7.1模板bin/spark-submit –calss idea中的含有main方法的完整名字 –master 选择运行模式 –deploy-mode
原创
发布博客 2021.05.07 ·
333 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Spark中WordCount案例实操(linux上直接运行)上篇

编写程序(linux上运行)1.新建一个maven工程1.1 建好后,在项目上右击 --> Add Framework Support --> 勾选scala1.2 在src/main下新建一个directory (scala)–> 点击scala,右键 --> Mark Directory AS --> Sources Root2.日志文件配置(设置只打印Error级别的日志)2.1 在src/main/resources下新建 --> File(名为log4
原创
发布博客 2021.04.23 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

分享一下今天遇到的spark中的小的技术点的一部分,字数有限,可以去博客查看完整版! https://blog.csdn.net/Queen0809/article/details/116073576?spm=1001.2014.3001.5501 # 编写程序(windows上直接运行) ## 5.编写代码 5.1 输出到另一个文件 ```scala object WordCount2{ def main (args:Array[String]):Unit={ val conf: SparkConf = new SparkConf().setAppName("SparkWordCount").setMaster("local[*]") val sc: SparkContext = new SparkContext(conf) val lineRDD: RDD[String] = sc.textFile("D:\\develop\\Workspaces\\IdeaProjects\\sparkWordCount\\input\\1.txt") //需要解析的文件的绝对路径 val wordRDD: RDD[String] = lineRDD.flatMap(_.split(" "))//将输入的文件按空格切分并打散成单个词 val word2OneRDD: RDD[(String,Int)] = wordRDD.map((_,1))//将单词映射成单词,1的格式 val word2SumRDD: RDD[(String,Int)] = word2OneRDD.reduceByKey(_+_)//将单词相同的值进行相加求和 word2SumRDD.saveAsTextFile("D:\\develop\\Workspaces\\IdeaProjects\\sparkWordCount\\output\\1.txt")//输出结果的文件的绝对路径(输出的文件夹要不存在,默认会创建) sc.stop() } } ```

发布动态 2021.04.23

Spark中WordCount案例实操(windows上直接运行)

编写程序(windows上直接运行)1.新建一个maven工程1.1 建好后,在项目上右击 --> Add Framework Support --> 勾选scala1.2 在src/main下新建一个directory (scala)–> 点击scala,右键 --> Mark Directory AS --> Sources Root2.日志文件配置(设置只打印Error级别的日志)2.1 在src/main/resources下新建 --> File(名为
原创
发布博客 2021.04.23 ·
224 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark中的 官方求PI案例

官方求PI案例1.进入/opt/module/spark-standalone2.开启spark集群,sbin/start-all.sh3.写案例bin/spark-submit \--class org.apache.spark.examples.SparkPi \ 【spark程序中要执行程序的主类】--master spark://hadoop102:7077 \ 【spark运行模式:1.Local模式(local[*]),2.Standalone模式:master所在节点及端口号(s
原创
发布博客 2021.04.22 ·
1473 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Spark中的Driver和Executor

Driver和Executor任务的管理者1.Driver(线程)和Executor(计算对象)是spark中的临时程序,只有执行程序时,才会启动,程序执行完,即死亡2.Driver2.1 Spark shell 预加载的一个叫做sc的Spark Context对象2.2 将用户程序转换成作业(Job)2.3负责跟踪Executor的运行状况2.4 UI展示应用运行状况2.5 为执行器节点调度任务3.Executor3.1 负责执行spark的具体任务...
原创
发布博客 2021.04.22 ·
1080 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Spark中的Master和Worker

Master和Worker集群资源管理1.Master是spark中资源调度系统的Leader,管理整个集群的资源信息,类似于yarn中的ResourceManager2.Worker是spark中资源调度系统的slave,管理所在结点的资源信息,类似于yarn中的NodeManager3.在standalone模式下,Master和Worker是必须启动的...
原创
发布博客 2021.04.21 ·
2283 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark中Yarn模式(重点)--运行流程

Spark中Yarn模式(重点)–运行流程1.spark客户端直接连接yarn,不需要额外使用spark集群spark中有yarn-client模式和yarn-cluster模式2.1 两种模式的区别:Driver程序运行的节点不同2.2 yarn-client模式:Driver运行在客户端上,此模式适用于调试,并且可以直接查看结果2.3 yarn-cluster模式:Driver运行在NodeManager的ApplicationMaster上,此模式适用于生产环境3.yarn-clien
原创
发布博客 2021.04.21 ·
372 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

最易懂的MapReduce工作流程详解!

MapReduce工作流程原理详解(1)输入数据(Input):客户端submit()(客户端submit()前就已经将数据进行逻辑上的规划,也就是切片了),客户端将数据信息(job.split , wc.jar等)提交给Yarn的ResourceManager进行处理,ResourceManager启动NodeManager和ApplicationMaster,ApplicationMaster根据接收到的job.split信息,开启与切片个数相同个数的MapTask,MapTask启动后,用Input
原创
发布博客 2021.04.19 ·
496 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

hadoop集群安全模式(查看,进入,离开,等待安全模式状态)

集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。(1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态)(2)bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)(3)bin/hdfs dfsadmin -safemode leave (功能描述:离开安全模式状态)(4)bin/hdfs dfsadmin -safemode wait (功能描述:等待安全模式状态
原创
发布博客 2021.04.14 ·
982 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

虚拟机安装之jdk的安装和部署

1、卸载现有JDK(3台节点)[xiaobuding@hadoop102 opt]# sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps[xiaobuding@hadoop103 opt]# sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps[xiaobuding@hadoop104 opt]# sudo rpm -qa | grep -i java | xa
原创
发布博客 2021.04.14 ·
281 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

虚拟机安装之克隆三台虚拟机3( SSH无密登录配置)

3、 SSH无密登录配置1、配置ssh(1)ssh连接时出现Host key verification failed的解决方法[xiaobuding@hadoop102 ~]$ ssh hadoop103出现:The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established.RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:a
原创
发布博客 2021.04.13 ·
489 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

虚拟机安装之克隆三台虚拟机2(配置xsync集群分发脚本)

2、配置xsync集群分发脚本(1)在/home/xiaobuding目录下创建bin文件夹[xiaobuding@hadoop102 ~]$ mkdir bin(2)在/home/xiaobuding/bin目录下创建xsync文件,以便全局调用[xiaobuding@hadoop102 ~]$ cd /home/xiaobuding/bin[xiaobuding@hadoop102 ~]$ vim xsync在该文件中编写如下代码#!/bin/bash#1. 判断参数个数if [
原创
发布博客 2021.04.13 ·
410 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

虚拟机安装之克隆三台虚拟机1

1、利用模板机hadoop_base,克隆三台虚拟机:hadoop102 hadoop103 hadoop104(1)选中hadoop_base — 右键 — 管理 — 克隆 — 点击下一步 — 点击下一步(页面上选择:虚拟机中的当前状态) — 选择创建完整克隆,点击下一步 — 虚拟机名称(hadoop102),位置(放在模板机同目录即可,我的是在:D:\VM15\hadoop102),点击完成 — 点击关闭(2)克隆完成后,开启虚拟机 — 登录root账户(3)修改克隆虚拟机的静态IP[root@
原创
发布博客 2021.04.13 ·
943 阅读 ·
1 点赞 ·
2 评论 ·
7 收藏

十分钟学会hadoop史上最详细安装教程!

1、集群部署规划注意:NameNode和SecondaryNameNode不要安装在同一台服务器注意:ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。2、将hadoop安装包从Xftp上传到/opt/software3、解压安装文件到/opt/module下面[xiaobuding@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/4、配置
原创
发布博客 2021.04.06 ·
848 阅读 ·
2 点赞 ·
2 评论 ·
4 收藏

虚拟机安装---模板机准备9(测试安装好的模板机)

9.1、重新进入Xshell(1)将原来建立的hadoop_base的会话删掉,重建一个(2)文件 — 新建 — 名称(写hadoop_base)— 主机(写hadoop100,因为在windows中修改了映射文件) — 点击确定 — 点击连接 — 点击接收并保存 — 输入用户名(xiaobuding,再不用root了) — 输入密码9.2、测试安装好的模板机(1)测试命令是否好[xiaobuding@hadoop100 ~]# ifconfigPING www.baidu.com (14.2
原创
发布博客 2021.04.05 ·
287 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

虚拟机安装---模板机准备8(修改windows的主机映射文件(hosts文件))

8、修改windows的主机映射文件(hosts文件)(1)如果操作系统是window7,可以直接修改(a)进入C:\Windows\System32\drivers\etc路径(b)打开hosts文件并添加如下内容,然后保存192.168.81.100 hadoop100192.168.81.101 hadoop101192.168.81.102 hadoop102192.168.81.103 hadoop103192.168.81.104 hadoop104192.168.81.105
原创
发布博客 2021.04.05 ·
605 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏
加载更多