![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
无香菜不欢
多读书,少说话
到点睡觉,按时吃饭。
展开
-
Linux定时任务配置—小试牛刀
最近需要通过MapReduce统计数据的关联率,MapReduce已根据实际场景编写完毕,但需要每天根据新录入数仓的数据,重新配置路径。日复一日的机械性磨灭了激情,于是乎,我编写了一个定时自动获取当前日期的脚本进行更新配置文件,省去了每天繁琐的工作。先po上更新配置文件的脚本#!/bin/bashawk -F '=' 'BEGIN{time=systime()-86400*2; preDate=strftime(("%Y%m%d"),time); preDate2=strftime(("%原创 2020-07-30 20:30:17 · 187 阅读 · 0 评论 -
MapReduce根据不同要求将结果输出不同命名文件
MapReduce默认输出的文件命名为part-0000。日常业务开发情况需要根据不同的结果文件名,来辨认不同输出需求数据,因此,默认输出格式不足以满足需求。我们需要对MapReduce的文件输出做特殊的设置。一、job端 MultipleOutputs.addNamedOutput(job,"corpInfo",TextOutputFormat.class,Text.class,Text.class); MultipleOutputs.setCountersEn..原创 2020-07-22 21:39:20 · 602 阅读 · 0 评论 -
MapReduce如何从Map端获取数据源的路径
在Mapreduce流程中,在Map端常常遇到需要根据来自不同数据源的<key,value>,进行不同的操作。因此,经常需要获取到<key,value>的数据来源。获取文件名的大致流程为:Context(map函数里) → InputSplit → FileSplit → Path → String(file name)。ContextContext是Mapper的内部类,在Map或Reduce任务中跟踪task的状态,Context在Map端执行时携带上下文信息。可理解原创 2020-06-05 22:10:36 · 756 阅读 · 0 评论 -
集群中时间同步
集群中时间不同步有可能会让大数据的应用程序运行混乱,造成不可预知的问题,比如Hbase,当时间差别过大时就会挂掉,所以在大数据集群中,ntp服务,应该作为一种基础的服务,以下在演示在CentOS 7.2集群上配置ntp服务的过程首先检查系统中是否安装ntp包:rpm -q ntp然后,执行命令在线安装ntp:yum -y install ntp安装后重新查看ntp包:...原创 2019-11-12 17:09:28 · 498 阅读 · 0 评论 -
HBase快速入门
HBase 定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。HBase 数据模型逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map。HBase 逻辑结构HBase 物理存储结构...原创 2019-11-10 00:26:00 · 217 阅读 · 0 评论 -
Zab协议:一致性协议
什么是Zab协议?Zookeeper 是通过 Zab 协议来保证分布式事务的最终一致性。 Zab协议是为分布式协调服务Zookeeper专门设计的一种 支持崩溃恢复 的 原子广播协议 ,是Zookeeper保证数据一致性的核心算法。Zab借鉴了Paxos算法,但又不像Paxos那样,是一种通用的分布式一致性算法。它是特别为Zookeeper设计的支持崩溃恢复的原子广播协议。 在...原创 2019-11-02 13:13:26 · 620 阅读 · 1 评论 -
ZooKeeper监听机制以及写流程
常见监听节点数据变化节点数目发生变化监听流程客户端 服务端 Main进程 创建ZK客户端,会创建connet网络连接通信线程,listener监听线程 通过connect线程将注册的监听事件发送给Zookeeper服务端 将监听事件添加到注册监听器列表 监听到有数据或路径变化,将消息发送给listener...原创 2019-11-02 10:03:39 · 556 阅读 · 0 评论 -
ZooKeeper选举机制详解
Zookeeper选举机制Zookeeper的选举机制是半数机制(Paxos协议):集群中半数以上机器存活,集群就可用。所以Zookeeper适合装在奇数台机器上。 Zookeeper在配置文件没有指定master和slave,但是在Zookeeper工作时,是有一个节点为leader,其它为followrer,这个leader就是通过内部的选举机制临时产生的。 集群中每台机器在选举...原创 2019-11-02 00:31:05 · 1372 阅读 · 0 评论 -
ZooKeeper入门
ZooKeeper概念:ZooKeeper主要服务于分布式系统,可以用ZooKeeper来做:统一配置管理、统一命名服务、分布式锁、集群管理。 使用分布式系统就无法避免对节点管理的问题(需要实时感知节点的状态、对节点进行统一管理等等),而由于这些问题处理起来可能相对麻烦和提高了系统的复杂性,ZooKeeper作为一个能够通用解决这些问题的中间件就应运而生了。它基于观察者的设计模式;zook...原创 2019-11-01 17:49:41 · 106 阅读 · 0 评论 -
Spark MLid之线性回归
线性回归线性回归,对于初学者而言(比方说我)比较难理解,其实换个叫法可能就能立马知道线性回归是做什么的了:线性拟合。所谓拟合如下图所示:线性拟合,顾名思义拟合出来的预测函数是一条直线,数学表达如下:h(x)=a0+a1x1+a2x2+..+anxn+J(θ)h(x)=a0+a1x1+a2x2+..+anxn+J(θ)其中h(x)为预测函数,ai(i=1,2,..,n)为估...转载 2019-10-20 14:37:20 · 326 阅读 · 0 评论 -
hdfs的四大机制详解
心跳机制目的:为了实现主节点和从节点的通信重点:两个参数和namenode判定datanode宕机所需的时间因为hdfs具有心跳机制,所以在搭建分布式集群时,必须进行时间同步。心跳机制的原因:namenode是集群中的老大,负责进行任务分工,要进行分工,必须知道各个datanode结点的存活状态。namenode怎么 知道datanode的存活状态?datanode每隔一定...原创 2019-09-26 13:32:52 · 787 阅读 · 0 评论 -
namenode 如何判断datanode节点是否宕机的技术细节
1、namenode 如何判断datanode节点是否宕机?先决条件:datanode每隔一段时间像namenode汇报,汇报的信息有两点(1)自身datanode的状态信息;(2)自身datanode所持有的所有的数据块的信息。如果namenode连续十次没有收到datanode的汇报,那么namenode就会认为该datanode存在宕机的可能。datanode启动以后会专门启动一...原创 2019-09-26 13:14:26 · 4821 阅读 · 0 评论 -
Hadoop之HDFS文件读写过程
一、HDFS读过程 1.1 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStream inStream = fs.ope...原创 2019-09-17 19:55:25 · 339 阅读 · 0 评论 -
Hadoop HA 架构详解
HadoopHA 是什么?hadoop2版本中可以有多个namenode结点,一个是活跃(active)状态,一个是准备(standby)状态。(haoop 1不存在此特性)HadoopHA架构详解1.1 HDFS HA背景HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使...原创 2019-09-17 21:47:46 · 688 阅读 · 0 评论 -
MapReduce中各个阶段的分析(转自道法—自然老师)
MapReduce中各个阶段的分析:在MapReduce的各个阶段:在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read(一行)。在这里读入一行,返回的是(k,v)的形式,key是行号的偏移量,value的值是这一行的内容。在上述的过程中,之后是调用map方法,将以上内容转换成正真的(key,v...转载 2019-09-18 12:44:57 · 448 阅读 · 0 评论 -
Yarn架构与流程浅析
Yarn介绍MapReduce 早期的 JobTracker/TaskTracker 机制在可扩展性,内存消耗,线程模型,可靠性和性能存在较大的缺陷, 为从根本上解决框架的性能瓶颈,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构,新的 Hadoop MapReduce 框架命名为Yarn。YARN的最基本思想是将JobTracker的两个主要职责:资源管理...原创 2019-09-18 20:12:50 · 371 阅读 · 1 评论 -
Hive 概述以及优化
概述Hive是一个构建在Hadoop之上的数据仓库软件,它可以使已经存储的数据结构化,它提供类似sql的查询语句HiveQL对数据进行分析处理。 Hive将HiveQL语句转换成一系列成MapReduce作业并执行。hive强大之处不要求数据转换成特定的格式,而是利用hadoop本身InputFormat API来从不同的数据源读取数据,同样地使用OutputFormat API将数据写成...原创 2019-09-19 10:17:15 · 111 阅读 · 0 评论 -
Hbase的技术细节
Hbase介绍 一、Hbase介绍1、Hbase简介Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。...原创 2019-09-19 16:53:30 · 225 阅读 · 0 评论 -
Hbase的Region详解以及hbase写操作的实现
Hbase的Region介绍每个Region负责一小部分Rowkey范围的数据的读写和维护,Region包含了对应的起始行到结束行的所有信息。master将对应的region分配给不同的RergionServer,由RegionSever来提供Region的读写服务和相关的管理工作。这部分主要介绍Region实例以及Rgeion的寻找路径:1、region实例上图模拟了一个Hbas...转载 2019-09-19 17:27:36 · 1174 阅读 · 0 评论 -
格式化HDFS/home/master/data/hdfs/name/in_use.lock (权限不够)
问题:原因:可能由于hadoop的不正常关闭所导致,与权限问题无关,浪费时间解决方法:1.停止hdfs服务2.将文件夹下dfs/name/in_use.lock文件,删除(注意各个节点上的对应文件要删除)3.重启hdfs服务...原创 2019-09-25 19:47:02 · 2099 阅读 · 0 评论 -
Hadoop HA 架构搭建流程以及踩坑记录
前期准备(三个节点)1.修改IPvim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"BOOTPROTO="static"NM_CONTROLLED="yes"ONBOOT="yes"TYPE="Ethernet"UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"IPAD...原创 2019-09-26 09:52:56 · 587 阅读 · 0 评论 -
Hadoop之序列化
hadoop序列化接口1.Writable序列化时重要的接口,很多Hadoop中的数据类型都实现来这个接口,常见的有:FloatWritable ,DoubleWritable ,IntWritable ,LongWritable ,MapWritable ,Text 等Class 都实现来中个接口。在Hadoop中定义一个结构化对象都要实现Writable接口,使得该结构化对象可以序列化为...转载 2019-09-04 08:40:38 · 153 阅读 · 0 评论