大数据面试指南-CSDN博客

原创简单的介绍一下HDFS(HDFS是什么?)

1. 简单的介绍一下HDFS(HDFS是什么?)HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。HDFS使用Master和Slave结构对集群进行管理。一般一个 HDFS 集群只有一个 Namenode 和一定数目的Datanode

2021-02-24 17:06:44 349

原创 Spark安装之Standalone独立集群模式

集群角色介绍Spark是基于内存计算的大数据并行计算框架，实际中运行计算任务肯定是使用集群模式，那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。Standalone集群使用了分布式计算中的master-slave模型，master是集群中含有master进程的节点slave是集群中的worker节点含有Executor进程●Spark架构图如下(先了解)：集群规划node01:masternode02:slave/workernode03:slav

2020-09-02 08:36:24 1301

原创 Spark安装之local本地模式

1.上传安装,解压●解压重命名cd /export/serverstar spark-2.2.0-bin-2.6.0-cdh5.14.0.tgzmv spark-2.2.0-bin-2.6.0-cdh5.14.0 spark1234●注意：如果有权限问题，可以修改为root，方便学习时操作，实际中使用运维分配的用户和权限即可chown -R root /export/servers/sparkchgrp -R root /export/servers/spark12●解压目录说

2020-09-01 08:10:16 1718

原创大数据入门之初识Spark

**Spark官方介绍**●Spark是什么Apache Spark是用于大规模数据处理的统一分析引擎Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。●官网http://spark.apache.orghttp://spark.apachecn.org Spark特点●快与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10

2020-08-31 11:23:58 1686

原创 hbase例题

package com.czxy.demo01;import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FSDataOutputStr...

2020-01-07 15:18:35 1659 1

原创 Hbase常用shell操作

1、进入HBase客户端命令操作界面$ bin/hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):002:0> list4、创建一张表创建user表，包含info、data两个列族hbase(main):010:0> create 'user', 'info', 'data...

2020-01-07 09:30:06 1714

原创 Hbase的API（重点）

开发javaAPI操作HBase表数据1、创建表myuserpublic static void createTable() throws IOException { Configuration conf =new Configuration(); //连接hbase集群不需要指定hbase主节点的ip地址和端口号 conf.set("hbase.zookeepe...

2020-01-07 09:20:55 1741 4

原创 HBase的常用API

HBase的java代码开发熟练掌握通过使用java代码实现HBase数据库当中的数据增删改查的操作，特别是各种查询，熟练运用第一步：创建maven工程，导入jar包<repositories> <repository> <id>cloudera</id> <url>h...

2020-01-04 16:46:29 2471

原创大数据综合练习题目

本题是一个综合练习题目总共包括以下部分：1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例，请先阅读数据说明，再做相应题目。数据说明：表1-1 视频表表1-2 用户表原始数据：qR8WRLrO2aQ:mienge:406:People & Blogs:599:2788:5:1:0:4U...

2020-01-03 20:30:21 2991

原创 HBase特征简要

1）海量存储Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提供了便利。2）列式存储这里的列式存储其实说的是列族存储，Hbase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。3）极易扩展Hbase的扩展性主...

2019-12-12 21:14:08 1748

原创 RDBMS(关系型数据库)与HBase的对比

1、关系型数据库结构：数据库以表的形式存在支持FAT、NTFS、EXT、文件系统使用Commit log存储日志参考系统是坐标系统使用主键（PK）支持分区使用行、列、单元格功能：支持向上扩展使用SQL查询面向行，即每一行都是一个连续单元数据总量依赖于服务器配置具有ACID支持适合结构化数据传统关系型数据库一般都是中心化的支持事务支持Join2、HBas...

2019-12-12 21:12:50 1832

原创 HBase与Hadoop的关系

1、HDFS为分布式存储提供文件系统针对存储大尺寸的文件进行优化，不适用对HDFS上的文件进行随机读写直接使用文件数据模型不灵活使用文件系统和处理框架优化一次写入，多次读取的方式2、HBase提供表状的面向列的数据存储针对表状数据的随机读写进行优化使用key-value操作数据提供灵活的数据模型使用表状存储，支持MapRed...

2019-12-12 21:10:12 3146

原创 HBase基本介绍

简介hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单，不支持join等复...

2019-12-12 21:07:53 1688

原创 Impala-shell命令参数

1．impala-shell外部命令所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-shell 时设置，用于修改命令执行环境。impala-shell –h可以帮助我们查看帮助手册。也可以参考课程附件资料。比如几个常见的：impala-shell –r刷新impala...

2019-12-10 22:09:10 1688

原创 Impala安装部署

1．安装前提集群提前安装好hadoop，hive。hive安装包scp在所有需要安装impala的节点上，因为impala需要引用hive的依赖包。hadoop框架需要支持C程序访问接口，查看下图，如果有该路径下有这么文件，就证明支持C接口。2．下载安装包、依赖包由于impala没有提供tar包进行安装，只提供了rpm包。因此在安装impala的时候，需要使用rpm包来进行安装。rpm...

2019-12-10 22:03:06 1684

原创 Apache Impala简介

1．Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具impala是参照谷歌的新三篇论文（Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具）当中的Dremel实现而来，其中旧三篇...

2019-12-10 21:43:08 1702

原创 Hive分桶表

分桶表将数据按照指定的字段进行分成多个桶中去，说白了就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去开启hive的桶表功能set hive.enforce.bucketing=true;设置reduce的个数set mapreduce.job.reduces=3;创建桶表create table course (c_id string,c_name string...

2019-12-04 22:14:45 1682

原创 Hive 分区表

分区表：在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了创建分区表语法create table score(s_id string,c_id string, s_scor...

2019-12-04 22:12:37 1707

原创 Hive 外部表和内部表

外部表：外部表说明：外部表因为是指定其他的hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive表的时候，数据仍然存放在hdfs当中，不会删掉管理表和外部表的使用场景：每天将收集到的网站日志定期流入HDFS文本文件。在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表、结果表使用内部表存储，数据通过SELECT+INSERT进入内部表。操作...

2019-12-04 22:10:17 1700

原创 Hive基本操作

创建数据库与创建数据库表创建数据库操作创建数据库create database if not exists myhive;use myhive;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/w...

2019-12-04 22:07:36 1667

原创 MySQL的join关键字详解

SQL Join联接子句用于在两个或更多在数据库中的表的记录组合。JOIN是通过使用从两个表字段共通的值组合连接起来。MySQL官方只提供了三种join方式，内连接、左连接和右连接，不支持其他的连接关键字。但是可以通过一定的语法将达到其他的连接的效果。1.内连接 inner join最频繁使用的和重要的联接是INNER JOIN。它也被称为一个等值连接。INNER JOIN通过结合基于联接谓...

2019-12-04 21:53:50 1662

原创 Flume简单案例

1．采集目录到HDFS采集需求：服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素采集源，即source——监控文件目录 : spooldir下沉目标，即sink——HDFS文件系统 : hdfs sinksource和sink之间的传递通道——channel，可用file channel 也可以用内存chann...

2019-12-04 21:46:14 1645

原创 Flume安装部署

二、Flume安装部署Flume的安装非常简单上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz然后进入flume的目录，修改conf下的flume-env.sh，在里面配JAVA_HOMEexport JAVA_HOME=/export/servers/apache-flume-1.8.0-binexport P...

2019-12-04 21:42:30 1705

原创 Apache Flume简介

1．概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的数据。Flume支持定制各类数据...

2019-12-04 21:37:05 1843

原创 Hive的使用方式（三种交互方式）

第一种交互方式：Hive交互shellcd /export/servers/hive-1.1.0-cdh5.14.0bin/hive查看所有的数据库hive (default)> show databases;创建一个数据库hive (default)> create database myhive;使用该数据库并创建数据库表hive (default)> ...

2019-11-22 16:28:44 2091

原创 HIVE的安装部署（强烈推荐）

mysql数据库的安装（使用yum源进行安装，强烈推荐）第一步：在线安装mysql相关的软件包yum install mysql mysql-server mysql-devel第二步：启动mysql的服务/etc/init.d/mysqld startchkconfig mysqld on第三步：进入mysql的客户端然后进行授权use mysql;配置远程连接 ...

2019-11-22 16:00:53 1612

原创 HIVE的安装部署(不推荐）

HIVE的安装部署我们在此处选择第三台机器作为我们hive的安装机器安装derby版hive直接使用：1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/1、直接启动 bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin...

2019-11-22 11:48:54 1646

原创 Hive的基本概念

一、Hive基本概念1.1、Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题人员...

2019-11-22 11:41:38 1927

原创大数据 MapReduce框架基本案例演示（计算数据中每个单词出现的次数）

MapReduce框架处理数据的基本流程WordCount计算需求：计算每个单词出现的次数原始数据zhangsan,lisi,wangwuzhaoliu,maqizhangsan,zhaoliu,wangwulisi,wangwu期望的最终zhangsan 2lisi 2wangwu 3zhaoliu 2maqi 1偏移量每个字符移动到当前文档的最前面需要移动的字符...

2019-11-13 11:34:20 2042 1

原创大数据 MapReduce框架核心思想

什么是计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。MapReduce计算框架什么是并行计算框架一个大的任务拆分成多个小任务，将多个小任务分发到多个节点上。每个节点同时执行计算。Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算3、节点横向扩展4、移动程序到数据端5、多个数据副本MapReduce核心思想分而治之，先分后和：将一个大...

2019-11-13 11:24:07 2259

原创 HDFS删除节点

退役旧数据节点目标：掌握HDFS在集群中删除掉无效节点的步骤第一步：创建dfs.hosts.exclude配置文件在namenod的cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts.exclude文件，并添加需要退役的主机名称node01执行以下命令cd /export/servers/hadoop-2...

2019-11-06 17:32:06 2453

原创 HDFS 新增节点

服役新数据节点目标：掌握HDFS新添加节点到集群的步骤需求基础：随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。准备新节点第一步：复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来，作为我们新的节点第二步：修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-p...

2019-11-06 17:26:07 2702

原创如何加快Hadoop集群二次启动的速度（SecondaryNamenode工作原理）

前提：不使用SNN,日志文件会很大，日志大会导致集群恢复到上次关机前的状态花费很长时间，这个时候集群处于安全模式，集群不可用。长时间处于安全模式。目标：加快集群二次启动的速度。（减少集群二次启动的时间）SecondaryNamenode周期性复制NameNode的FSIMAGE 和edits到本机（SecondaryNamenode本机），将两个文件进行合并，最终生成全新的Fsimage,...

2019-11-05 21:39:00 2141

原创 Fsimage, Edits 详解

NameNode元数据解析（1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载edits和fsimage文件到内存。（2）客户端对元数据进行增删改的请求。（3）namenode记录操作日志，更新滚动日志。（4）namenode在内存中对数据进行增删改查。Fsimage EditsFsimage 记录HDFS文件系统的镜像快照（周期...

2019-11-05 21:18:52 2051

原创这个世界上是不是真的有不适合编程的人？

我曾经带过一个女生。很伶俐大方的一个小姑娘，211院校毕业生，怎么都傻不了。当时分配给她的是类似这样的一个任务。首先上游函数会传来这么一个文本表格：1 2 3 4 T2 4 6 8 F1 3 5 7 T这个表格存于变量textTable中，需要调用lines = split(textTable, ‘\n’)按行拆分，执行后print lines[0]结果为：1 2 3 4 ...

2019-11-05 20:32:21 1756 2

原创 HDFS的优缺点，高级使用命令及安全模式介绍

HDFS 特性1.海量数据存储： HDFS可横向扩展，其储存文件可以支持PB级别数据2.高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动回复。可构建在廉价（与小型机大型机比）的机器上，实现线性扩展（随着节点数量的增加，集群的存储能力，计算能力随之增加）3.大文件存储：DFS采用数据块的方式存储数据，将一个大文件切分成多个小文件，分布存储HDFS 缺点1.不能做到低...

2019-11-05 15:58:58 1711

原创 HDFS的shell命令操作

目标：掌握HDFS操作数据的命令1）基本语法bin/hdfs dfs 具体命令2）参数大全[root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfsUsage: Hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp...

2019-11-05 14:58:50 1819

原创 HDFS文件读写流程

DateNode作用1.执行数据的读写（响应的是客户端）2.周期性向NameNode做汇报（数据块的信息，校验和）若datanode10分钟没有向NameNode做汇报，表示已丢失（已宕机）心跳周期 3秒3.执行流水线的复制（一点一点复制）...

2019-11-04 21:17:00 2082

原创 Hadoop的文件系统介绍

Hadoop组成Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统，对海量数据的存储。Hadoop MapReduce：一个分布式的资源调度和离线并行计算框架。Hadoop Yarn：基于HDFS,用于作业调度和集群资源管理的框架。Hadoop Common：Hadoop工具包，支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）1、 H...

2019-11-04 20:17:29 4444

原创 Hadoop集群安装部署

Hadoop集群安装部署（准备工作）1、关闭防火墙/etc/init.d/iptables stopchkconfig iptables off2、关闭selinux3、修改主机名4、ssh无密码拷贝数据特别说明（在主节点无密码访问到从节点）ssh-keygenssh-copy-id 192.168.100.201ssh-copy-id 192.168.100.202ssh...

2019-11-04 20:03:25 1727

空空如也

空空如也