自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

HoppingMad的博客

不知名大数据领域十八线博主,欢迎偷看

  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hadoop源码编译过程(附资源)

目录一、环境配置1. JDK解压、配置环境变量 JAVA_HOME和PATH2. Maven解压、配置 MAVEN_HOME和PATH3. ant解压、配置 ANT _HOME和PATH4. 安装 glibc-headers 和 g++ 命令如下5. 安装make和cmake6. 解压protobuf7. 安装openssl库8. 安装 ncurses-devel库二、编译1. 解压源码到/opt/目录2. 进入到hadoop源码主目录3. 通过maven执行编译命令4. 成功的64位hadoop包在/op

2021-01-26 19:14:48 547

原创 利用rsync编写超便捷的集群同步脚本

问题场景:学习大数据过程中很令人头疼的是搭建集群后集群配置的同步问题,之前我们常常修改好一个节点的配置文件后需要使用SCP指令挨个分发到各个节点,这是非常低效且繁琐的。在这里分享一个利用远程同步工具rsync来实现高效一键分发的脚本。rsync远程同步工具:rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。基本语法:rsync -

2021-01-25 21:23:15 222

原创 HBase与Hive集成使用详解

文章目录前言一、导入HBase下的jar包二、添加Zookeeper配置三、通过Hive创建HBase表测试1、进入Hive的shell创建表:2、插入数据总结前言HBase作为分布式的NOSQL数据库,并不支持传统的SQL查询,通过将Hive框架与HBase进行集成,我们可以实现使用HQL对HBase的数据进行操作,本文对具体的操作流程进行演示与使用测试:一、导入HBase下的jar包当我们使用HBase与Hive集成,其本质是Hive作为HBase的客户端。因此我们需要让Hive能够读取到H

2021-01-22 19:50:01 1200

原创 HBase导入数据之必会的BulkLoad

文章目录前言一、Bulk Load简介二、数据准备2、在HBase上创建表3、数据导入生产HFile四、bulkload到hbase表中总结前言通常MapReduce在写HBase时使用的是TableOutputFormat方式,在Reduce中生产PUT对象写入HBase,该方式在大数据量写入时效率十分低下(HBase会block写入,频繁进行flush,split,compact等大量IO操作),并对HBase节点的稳定性造成影响。一、Bulk Load简介HBase支持Bulk Load的入

2021-01-01 21:32:39 1051

原创 HBase导入数据方式之importTSV

前言常见的将数据导入HBase的方式大概有以下几种:a)使用HBase put APIb)使用Bulkload toolc)使用import功能d)从Hive导入本文主要演示使用importTSV的方式将TSV文件导入HBase的表中。1、创建上传TSV文件TSV的全称是 Tab Separated Values File,也就是制表符分隔的文本文件。我们出于演示,可以在本地直接创建一个简单的文件student.tsv。10001 zhangsan 35 male beijing 0109

2021-01-01 20:18:01 1463 1

原创 ACID、BASE与CAP三者联系与区别

ACID原则我们先介绍什么是ACID原则,ACID是关系数据库系统采纳的原则,也是一种简称,其代表含义如下。原子性(Atomicity):是指一个事务要么全部执行, 要么完全不执行。也就是不允许一个事务只执行了一半就停止。以银行转账为例,这是一个典型的事务.它的操作可以分成几个步骤.首先从A账户取出要转账的金额, A账户扣除相应的金额, 之后将其转入B账户的户头, B账户增加相同的金额。这个过程必须完整地执行,否则整个过程将被取消,回退到事务未执行前的状态,不允许出现从A账户巳经扣除金额,而没有打入B

2020-12-30 12:05:44 2856

原创 分布式数据库HBase的基本操作与命令

前一节我们共同完成了HBase的简介、安装与环境搭建,下面我们一起来上手一下HBase的基本操作与使用。HBase是如何存储的?在开始上手HBase前我们先看看它的存储方式:不同于一般关系数据库RDBMS的存储方式,HBase里字段的格式只有一种,就是Bytes,字节。这使得它更像是一种文件的存储而不是一般意义上的数据表。最重要的是理解它的存储模式。我们可以称之为列簇,它的每个列簇可以包含多个列,也就表现成上图中“URL”和“Parser”之间的关系,他俩同属于一个列簇。而我们进行检索时,我们主要

2020-12-29 21:33:43 373 2

原创 分布式数据库HBase安装与环境搭建

一、HBase简介1、HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力。是Apache的Hadoop项目的子项目。2、HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。3、HBase专用于海量数据的存储与海量数据的查询,可以在数十亿上百亿条记录的表中实现秒级别的查询速度,这是传统关系数据库不能比拟的。4、HBase各个组件功能介绍Client• 包含访问HBa

2020-12-27 22:01:11 482

原创 大数据交互平台Hue的简介与安装

文章目录一、Hue是什么?二、Hue的安装1.下载安装包并解压2.安装依赖(下载上面链接可以略过)3.编译三、修改配置四、启动Hue一、Hue是什么?HUE=Hadoop User ExperienceHue 是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布。它是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,是基于Pytho

2020-12-25 21:23:30 2792

原创 分布式基本原则之“三选二”的CAP理论

文章目录前言一、什么是CAP定理?二、为什么“三选二”?1.三选二的由来2.定理证明3.天然存在的“P”三、解决方案——走出“三选二”的误区写在最后前言在大数据应用落地日益成熟的今天,通过网络查阅理解大数据的一些基本概念显得十分重要。提起大数据,就离不开它的分布式架构,而把握着分布式大门的几把钥匙中无比重要的那一把,就是我们今天要讲的CAP理论(本文主要参考了《大数据日知录:架构与算法》)。一、什么是CAP定理?准确来说,CAP 是对“ Consistency/Availability/Par

2020-12-25 13:05:36 2700

原创 “All mirror URLs are not using ftp, http[s] or file.Cannot find a valid baseurl for repo: base“解决方法

问题描述:突然发现最近当我们使用CentOS时候,经常系统会出一些弹窗,告诉我们”Problem connecting to a software source“,不明所以。另外就是当我们使用yum进行安装时,它也报错,说"All mirror URLs are not using ftp, http[s] or file.Cannot find a valid baseurl for repo: base"。这让我们很纳闷,之前还用得好好的啊?原因分析:后来查阅得知在几天前,官方停止了维护,

2020-12-23 21:14:03 2174 2

原创 Oozie的案例测试

文章目录前言一、解压examples上传到HDFS二、更改配置三、启动oozie案例总结前言开始前请确保已经配置好了oozie的环境,有关Oozie的安装配置问题请参照Oozie安装配置完整教程,安装好后我们用oozie自带的examples进行案例运行测试。一、解压examples上传到HDFS第一步,在安装目录下输入tar -zxvf oozie-examples.tar.gz解压到当前目录,之后会出现一个名为examples的文件夹里面放置了各种程序。第二步,上传到HDFS上,/opt/c

2020-12-20 19:22:47 271

原创 Oozie安装配置完整教程

文章目录前言一、Oozie的简介二、Oozie的下载三、Oozie的安装1.添加Hadoop权限2.配置驱动包3.启动准备a. 创建备用war包b. 将sharelib上传到HDFSc.创建Oozie数据库d.配置oozie-site.xml四、Oozie启动测试总结前言Oozie的整个安装配置流程是较为繁琐复杂的(相比其他Hadoop框架),但这篇教程会每步写的很详细,大家只要跟着我的教程一步一步走,都能安装配置成功。我这里配置的版本是CDH5.3.6下的Oozie4.0.0版本,大家如果用来学习可

2020-12-19 22:59:33 2950 4

原创 Linux虚拟机磁盘空间不足的解决方法

问题描述:其实很多时候,在我们虚拟机安装了一些软件后,你发现磁盘莫名其妙的空间就满了,这个时候我们需要学会找到Linux系统中的大文件以及清理Linux的磁盘。原因分析:一个主要原因是在vmware虚拟机下安装的linux系统,为了在windows和linux之间拷贝数据方便,所以在vmware上安装了vmware tools。在安装了vmware tool之后会在linux系统.cache/vmware/drag_and_drop/路径下创建一些缓存区目录,从windows拷贝文件的时候会先将文

2020-12-19 10:42:48 4614 3

原创 一招学会定时任务——Linux下的crontab调度

文章目录一、Crontab简介二、Crontab用法分析三、基本使用命令总结一、Crontab简介Linux crontab是用来定期执行程序的命令。当安装完成操作系统之后,默认便会启动此任务调度命令。crond 命令每分锺会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。Linux下的任务调度分为两类,系统任务调度和用户任务调度。系统任务调度:系统周期性所要执行的工作,比如写缓存数据到硬盘、日志清理等。在/etc/crontab文件,这个就是系统任务调度的配置文件。用

2020-12-18 20:55:46 458 2

原创 Flume实时监控目录Spooldir

文章目录前言一、spooldir简介二、五步法编写Agent配置三、导入驱动,准备数据1.导入驱动(重复提醒)2.创建几个数据文件三、启动Agent测试总结前言提示:本篇为Flume系列的实战应用,在阅读此文前请务必安装好Flume环境,可以参考日志收集工具Flume的简介与安装,基本使用可以参考Flume基本使用,监控文件变化可以参考Flume应用篇之实时监控日志并存储至HDFS,重复内容不再赘述。本机环境为:CentOS 6.5CDH 5.3.6JDK 1.7本文还实现了source的文.

2020-12-18 18:23:57 2379 2

原创 Flume应用篇之实时监控日志并存储至HDFS

文章目录前言一、五步法编写Agent配置二、开启监控日志任务1.导入驱动2.启动Agent三、启动Hive测试总结前言提示:本篇为Flume系列的进阶使用,在阅读此文前请务必安装好Flume环境,可以参考日志收集工具Flume的简介与安装,基本使用可以参考Flume基本使用。重复内容不再赘述。本机环境为:CentOS 6.5CDH 5.3.6JDK 1.7一、五步法编写Agent配置由于上篇博客已经创建了一个Agent名为a1,我们这里直接复制它的框架并改名cp a1.conf a2.co.

2020-12-18 00:22:07 954

原创 大数据框架Flume的基本使用

文章目录前言一、5步编写Agent配置文件二、通过Telnet服务进行测试1.安装telnet2.启动服务3.启动Flume总结前言提示:在前一篇文章中我们已经介绍了日志收集工具Flume的简介与安装,接下来我们一起学习如何操作Flume。一、5步编写Agent配置文件通过上一篇文章我们知道Flume是靠Agent来可靠处理日志数据,那么针对每一个任务,我们首先就要知道如何进行Agent的配置,本文不做过多深入介绍,但详细内容希望大家学会阅读官方文档http://flume.apache.org/

2020-12-17 20:14:59 566 1

原创 文件收集工具Flume的简介与安装

文章目录前言一、Flume简介1.什么是Flume?2.三个组件详解3.关于Event二、安装步骤1.下载安装包2.安装Flume3.修改配置文件总结前言提示:本机的环境为Cent OS 6.5Java jdk1.7CDH 5.3.6在此前请确保已经配置好JAVA环境!一、Flume简介1.什么是Flume?Flume 是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前)

2020-12-17 19:25:53 525 2

原创 Sqoop导出数据到关系数据库Mysql

文章目录前言一、在HDFS上创建文件二、导出到Mysql总结前言Sqoop的使用中最基础也是最重要的在于掌握导入数据和导出数据,数据从RDBMS导入到HDFS或者Hive的过程我们已经做过了Sqoop导入数据之import的基本使用这一节简单实现一下数据的导出,本质上和导入相同。一、在HDFS上创建文件我们首先在本地目录下touch创建一个文件tmpdata.txt,按照mysql某个表的格式写入几行数据(默认逗号分隔):表的格式:对应数据:接下来我们上传数据到HDFS上bin/hd

2020-12-14 20:14:42 463

原创 MapReduce任务卡在Running Job状态的多种解决方法

问题描述:当搭建好hadoop分布式环境测试运行MapReduce程序时有时会遇到MapReduce任务卡住,shell界面停在RunningJob后不动的情况,这种时候应当如何解决呢? 原因分析:正常情况下一个Job被提交上去后需要经历资源分配的过程,这往往需要数秒钟的时间,但通常不会过长,在Hadoop2.X中Yarn负责管理资源的分配和调度,那么大概率是Yarn资源分配过程遇到了毛病。解决方案:1、查看Hadoop详细日志可以通过Hadoop前端web页面(一般为50070端口)查看

2020-12-14 19:21:05 4337

原创 Sqoop导入数据之使用snappy数据压缩

文章目录前言一、什么是Snappy压缩?二、配置Snappy1.检查Snappy安装2.安装Snappy支持三、测试Snappy压缩总结前言前一篇文章中我们已经讲解了Sqoop中导入数据的基本方法Sqoop导入数据之import的基本使用接下来这篇文章中我们将介绍什么是Snappy压缩以及演示Snappy压缩的基本使用。本人的实验环境如下:CentOS6.5系统CDH5.3.6的版本环境一、什么是Snappy压缩?Snappy 是一个 C++ 的用来压缩和解压缩的开发包。其目标不是最大限度

2020-12-14 18:58:25 1400

原创 Sqoop导入数据之import的基本使用

文章目录前言一、Sqoop是什么,import操作是怎样?二、Mysql到HDFS1.创建Mysql表2.插入数据3.import到HDFS三、Mysql到Hive总结前言提示:本教程使用环境为:CentOS6.5CDH5.3.6本教程将演示由Mysql到HDFS和Mysql到Hive两种导入过程,由于版本不一致可能会有操作上的不同。如果目前仍没有搭好Sqoop环境,请看最简便CentOS6.5下CDH版本sqoop安装步骤一、Sqoop是什么,import操作是怎样?Sqoop - “

2020-12-13 22:40:15 4557

原创 最简便sqoop安装步骤

文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport.

2020-12-11 20:28:08 396

原创 Hive安装与环境搭建

文章目录前言一、Hive安装包下载二、Hive的安装三、Hive配置文件修改1.修改hive-env.sh2.修改hive-env.sh2.读入数据总结前言提示:在开始之前请先确保你已经进行了Hadoop环境搭建,详情请见CDH5.3.6下搭建hadoop伪分布式环境教程!一、Hive安装包下载进入cloudera官方下载链接点击此处进入下载页面由于我的环境统一采用了CDH5.3.6的版本所以选择hive-0.13.1-cdh5.3.6进行下载,根据自己cdh版本进行选择即可。二、Hi

2020-12-11 17:45:15 232

原创 最简单的搭建hadoop伪分布式教程

最简单易读的CDH5.3.6下搭建hadoop伪分布式环境教程前言一、hadoop安装包下载二、安装Hadoop1.创建统一目录进行管理2.解压Hadoop安装包三、配置本机ssh免密登录四、修改配置文件1.统一修改hadoop-env.sh、yarn-env.sh和mapred-env.sh中的JAVA_HOME的值2.修改core-site.xml3.修改hdfs-site.xml4.修改yarn-site.xml5.修改mapred-site.xml五、测试运行Hadoop1.格式化HDFS2.逐个启

2020-12-10 21:29:37 248

MIT线代第五版习题答案

这是MIT线代教材第五版的课后答案,有需要的朋友直接下载

2018-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除