大数据
宫城诗
这个作者很懒,什么都没留下…
展开
-
20200806——Yarn关于数据提交的过程
yarn数据提交的过程 首先编写作业,打成一个jar包,输入命令,提交运行作业 首先客户端提交作业,基于jvm 然后联系到RM,RM会返回一个id,告诉客户端当前的最大资源量与最小资源量 把当前的jar包,拷贝到hdfs中去,因为后续的nodemanager想要去获得这个jar包,运行程序。 提交当前作业到RM,RM根据提交过来的请求,生成一个container。 container会启动一个Application Master。 AM向RM注册自己,MR去读HDFS中的数据,计算出起多少个map和redu原创 2020-08-06 14:30:10 · 145 阅读 · 0 评论 -
20200721——深入ambari 专门用语解读
根据官方的文档的阅读,深入理解一下,更好的在阅读源码的时候明确含义。 Service 在hadoop集群中的stack(堆栈)中,service相当于services来说,hdfs,hbase,yarn这些都是服务的实例。一个服务可能有多种组件,hdfs拥有namenode,datanode,secondarynamenode这些组件。 一个服务可以被当作客户端库。 Component 一个service包含了一个或者多个组件components。 组件是可以选择的,一个组件可能在多个机器上持有。比如会有多原创 2020-07-21 16:41:46 · 133 阅读 · 0 评论 -
20200720——关于hdfs/mysql/redis的持久化技术
先说mysql,个人觉得是比较难理解的 redo log是物理页面,而bin log 是逻辑页面。 redo log是引擎innodb特有的,而bin log是数据库层面的。 redo log为重做日志,bin log为归档日志 redo log是循环写的问题,一组4个文件,一个文件1gb,重复使用。 bin log写完这一页,继续写下一页。 理解一下crash-safe crash-safe表示在mysql数据库宕机之后,能够保证 已经提交的数据仍然存在 没有提交的数据进行回滚 innodb_flush_原创 2020-07-20 20:06:04 · 216 阅读 · 0 评论 -
20200715——大数据中的rpc ambari/hdfs/yarn
学习大数据,发现server与agent,hdfs中的nn与dn,yarn中的rm与nm都是通过rpc来进行通信的,今天就学习一下什么是rpc rpc是什么 remove produce call 远程过程调用 区别于调用本地方法,相当于调用远程服务器组件中的一个函数 rpc与restful 当然在学校做项目的时候都是通过restful进行远程调用。 restful都是基于http调用的,后端暴露接口给前端,前端用ajax请求直接访问后端的url,并且传入对应的参数,后端进行调用之后返回前端想要获取的字段原创 2020-07-15 15:14:23 · 266 阅读 · 0 评论 -
20200420——数据库 基础
根据以前发的博客 要创建三个虚拟机 以node-1为主节点 环境用NAT模式 第一个节点的时候,更改一下配置文件 vi /etc/sysconfig/network-scripts/ifcfg-ens33 重启之后就有ip了 然后当前状态复制两个出来 同步时间 在所有的xshell下面 date 设置主机名 node-1~node-3 hostnamectl set-hostname **...原创 2020-04-21 00:01:39 · 101 阅读 · 0 评论 -
20200420——大数据 hadoop
核心组件 分布式文件系统 HDFS 解决资源任务调度 YARN 解决海量数据计算 MAPREDUCE hadoop发展简史 hadoop的特性优势 hadoop集群介绍 mapduce是分布式运算框架,是应用程序开发包。由用户按照编程规范进行程序开发,打包在hdfs上。 ...原创 2020-04-20 23:23:52 · 107 阅读 · 0 评论