大数据
不爱学习的小笨猪
这个作者很懒,什么都没留下…
展开
-
yum安装mysql
1、查看是否已有yum 安装的MySQLyum list installed | grep mysql2.删除yum安装的mysql**yum -y remove mysql-libs.x86_64,若有多个依赖文件则依次卸载。 当结果显示为Complete!即卸载完毕。** 其中mysql-libs.x86_64为查询已经存在的mysql 3.安装mysql -server服...原创 2018-06-22 21:40:22 · 158 阅读 · 0 评论 -
MapReduce运行到YARN的过程详解
MapReduce运行到YARN的过程详解1、客户端client向YARN主节点ResourceManager提交作业job 比如统计4G文件中每个单词出现的次数统计结果 在hadoop环境下提交作业的语句:bin/yarn jar XXX.jar MainClass args2、主节点ResourceManager在某个DataNode从节点上启动一个Container运行appli...原创 2018-06-15 23:20:46 · 1056 阅读 · 0 评论 -
Secondary NameNode的作用
NameNode的工作1、处理客户端发过来的请求 2、管理子节点 3、管理元数据元数据存储处一定不是存放在hdfs,死循环 为了加快访问,元数据放在NameNode那台主机的内存里面 内存读写速度很快,可以加快请求,但是,主机关机怎么办??? 元数据存储在内存中,也存储在磁盘中,也就是一个文件。 这个文件名名称fsimage, /opt/modules/hadoop-...原创 2018-06-15 23:30:14 · 606 阅读 · 0 评论 -
hive 实现分组取每组的前三条记录
业务需求有以下两张表--雇员表create table emp(empno INT,COMMENT '雇员编号'ename STRING,COMMENT '雇员名字'job STRING,COMMENT '雇员职位'mgr INT,COMMENT '雇员领导编号'hiredate STRING,COMMENT '雇员入职时间'sal DOUBLE,COMMENT '雇员薪...原创 2018-06-26 20:27:12 · 8709 阅读 · 3 评论 -
mapreduce的map个数决定因素
转载:https://blog.csdn.net/it_dao/article/details/79417416转载 2018-07-28 21:42:14 · 1255 阅读 · 0 评论 -
Spark数据本地性
分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布式系统性能高下。概念:block : HDFS的物理空间概念,固定大小,最小是64M,可以是128,256 。。也就是说单个文件大于block的大小,肯定会被切分,被切分的数目大概是:比如文件是250M,block是64M,就会被分为4个block,64+64+64+58,最后一个block没有满,一个block只能有一个文件...转载 2018-08-14 10:44:47 · 539 阅读 · 0 评论 -
如何管理Spark Streaming消费Kafka的偏移量(一)
park streaming 版本 2.1kafka 版本0.9.0.0在这之前,先重述下spark streaming里面管理偏移量的策略,默认的spark streaming它自带管理的offset的方式是通过checkpoint来记录每个批次的状态持久化到HDFS中,如果机器发生故障,或者程序故障停止,下次启动时候,仍然可以从checkpoint的目录中读取故障时候rdd的状态,便能...转载 2018-08-13 22:05:08 · 654 阅读 · 0 评论