小埋璐璐-CSDN博客

原创【spark】Local本地安装部署

下载Spark安装包下载地址：http://spark.apache.org/downloads.html上传安装包cd /export/soft/rztar -zxvf ./spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz -C …/servers/解压目录说明bin：可执行脚本conf：配置文件data：示例程序使用数据examples：示例程序jars：依赖 jar 包python：pythonAPIR：R 语言 APIsbin：集群管理命令ya

2020-12-28 11:29:15 266

原创 spark初介绍

介绍Apache Spark是用于大规模数据处理的统一分析引擎Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群官网：http://spark.apache.orghttp://spark.apachecn.org特点快：与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。

2020-12-28 11:06:21 173

原创 Azkaban介绍

工作流工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是：为了实现某个业务目标，利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的：数据采集、数据预处理、数据分析、数据展示等。各个模块单元之间存在时间先后依赖关系，且存在着周期性重复。为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。工作流调

2020-12-14 10:52:53 402

原创 Hue介绍入门必备

介绍HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue，可以在浏览器端的Web控制台上与Hadoop集群进行交互，来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等等。作用1.访问HDFS

2020-12-14 10:46:51 329

原创 scala

scala简介scala是运行在JVM上的多范式(多种编程方法)编程语言，同时支持面向对象和面向函数编程早期，scala刚出现的时候，并没有怎么引起重视，随着Spark和Kafka这样基于scala的大数据框架的兴起，scala逐步进入大数据开发者的眼帘。为什么使用scala开发大数据应用程序（Spark程序、Flink程序）表达能力强，一行代码抵得上Java多行，开发速...

2020-12-11 10:01:07 294

原创 Flume安装部署

上传并解压安装包到数据源所在节点上上传解压tar -zxvf ./apache-flume-1.8.0-bin.tar.gz -C …/servers/修改配置文件进入flume下的的conf目录cd /export/servers/apache-flume-1.8.0-bin/conf/在这里插入图片描述拷贝文件cp flume-env.sh.template flume-env.sh1修改配置文件（在flume-env.sh文件中配置JAVA_HOME）vi ./flume

2020-12-11 09:58:08 213

原创 HBASE简答

1.HBase的基本介绍a.Hbase是建立在hdfs之上的一个数据库，b.不支持join等SQL复杂操作c.支持的数据类型：byte[]，d.依靠横向扩展，一个表可以有上十亿行，上百万列。e.面向列(族)的存储和权限控制f.对于为空(null)的列，并不占用存储空间，是一个稀疏表。2.HBASE的适用场景海量数据、精确查询、快速返回海量数据：指的是数据量的背景精确查询：业务场...

2020-01-09 02:50:18 430

原创综合性题目练习

1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例，请先阅读数据说明，再做相应题目。数据说明：表1-1 视频表原始数据：qR8WRLrO2aQ:mienge:406:People & Blogs:599:2788:5:1:0:4UUEKhr6vfA:zvDPXgPiiWI:TxP1eXHJQ...

2020-01-06 17:22:34 333

原创 impala——shell命令参数

外部命令所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-shell 时设置，用于修改命令执行环境。比如几个常见的：impala-shell：进入shell窗口impala-shell –h：查看帮助手册impala-shell –r：刷新impala元数据，与建立连...

2019-12-13 21:19:17 379 2

原创 HBase常用shell操作

HBase常用shell操作1、进入HBase客户端命令操作界面$ bin/hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):002:0> list4、创建一张表创建user表，包含info、data两个列族hbase(main):010:0> create ‘user’, ‘...

2019-12-13 20:36:17 188

原创 Hbase的集群环境搭建

Hase的集群环境搭建注意事项：HBase强依赖zookeeper和hadoop，安装HBase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行第一步：下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下http://archive.clou...

2019-12-13 20:26:04 253 4

原创 HBase基本介绍

HBase基本介绍简介hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单...

2019-12-13 20:19:17 264 1

原创 hive总结

Hive知识点总结什么是Hive?Hive是基于Hadoop的一个数据仓库工具，Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用分别是什么?元数据：描述数据的数据内部执行流程：解...

2019-11-28 20:29:27 338

原创 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方法原因：解决方法：输入：set hive.exec.mode.local.auto=true;

2019-11-21 10:36:50 1430 7

原创 Hive基本操作

Hive基本操作创建数据库与创建数据库表创建数据库操作创建数据库create database if not exists myhive;use myhive;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的hive.metastore.warehouse.dir/user/hive/warehouse创建数据库并指定hdfs存储位置crea...

2019-11-20 21:44:05 183 1

原创 HIVE的安装部署

HIVE的安装部署我们在此处选择第三台机器作为我们hive的安装机器1.6.1 安装1.6.1.1、derby版hive直接使用：1、解压hive缺点：多个地方安装hive后，每一个hive是拥有一套自己的元数据，大家的库、表就不统一；1.6.1.2、使用mysql共享hive元数据mysql数据库的安装（使用rpm包的方式进行安装，不推荐）第一步：查看系统自带的mysql的r...

2019-11-20 21:35:40 184

原创 Hive简介

Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太...

2019-11-20 21:34:46 181

原创 map端join算法实现

map端join算法实现1、原理阐述适用于关联表中有小表的情形；可以将小表分发到所有的map节点，这样，map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果，可以大大提高join操作的并发度，加快处理速度2、实现示例–先在mapper类中预先定义好小表，进行join–引入实际场景中的解决方案：一次加载数据库或者用第一步：定义mapJoinpublic class ...

2019-11-18 21:40:19 403

原创 reduce端join与map端join算法实现

reduce端join与map端join算法实现**1、reduce端join算法实现**1、需求：订单数据表t_order：商品信息表t_product假如数据量巨大，两表的数据是以文件的形式存储在HDFS中，需要用mapreduce程序来实现一下SQL查询运算：2、实现机制：通过将关联的条件作为map输出的key，将两表满足join条件的数据并携带数据所来源的文件信息，...

2019-11-18 21:32:47 229

原创 shuffle阶段数据的压缩机制

shuffle阶段数据的压缩机制在shuffle阶段，可以看到数据通过大量的拷贝，从map阶段输出的数据，都要通过网络拷贝，发送到reduce阶段，这一过程中，涉及到大量的网络IO，如果数据能够进行压缩，那么数据的发送量就会少得多，那么如何配置hadoop的文件压缩呢，以及hadoop当中的文件压缩支持哪些压缩算法呢？？接下来一一细看MapReduce的执行流程为什么要配置压缩：MapRe...

2019-11-18 21:24:55 292

原创 MapReduce过程全程

第1步：InputFormatInputFormat 到hdfs上读取数据将数据传给Split第2步：Split//设置读取数据的路径 TextInputFormat.addInputPath(job,new Path(“C:\bbb.txt”)); //3、设置Map job.setMapperClass(WordCountMap.class); //设置map输出的类型 job.set...

2019-11-14 20:28:38 137

原创 WARN - PriviledgedActionException as:superè (auth:SIMPLE) cause:0: No such file or directory

WARN - PriviledgedActionException as:superè (auth:SIMPLE) cause:0: No such file or directory解决方法在runner类添加 conf.set(“hadoop.tmp.dir”,“E:\tmp\hadoop-abc”);代码如下：public class WordCountRunner {publ...

2019-11-12 11:51:46 250 1

原创 hadoop无法自动生成tmp文件

![在这里插入图片描述](https://img-blog.csdnimg.cn/20191112112657119.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01hbHVf,size_16,color_FFFFFF,t_70](htt...

2019-11-12 11:32:14 2969

原创 namenode故障修复

namenode故障恢复目标：掌握nameNode故障后如何恢复secondaryNamenode对namenode当中的fsimage和edits进行合并时，每次都会先将namenode的fsimage与edits文件拷贝一份过来，所以fsimage与edits文件在secondarNamendoe当中也会保存有一份，如果namenode的fsimage与edits文件损坏，那么我们可以将s...

2019-11-06 21:14:33 277 3

原创 HDFS新增节点与删除节点

HDFS新增节点与删除节点服役新数据节点目标：掌握HDFS新添加节点到集群的步骤准备新节点第一步：复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来，作为我们新的节点第二步：修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修改ip地址命令vim /etc/sysconfig/network-...

2019-11-06 20:36:44 839

原创 HDFS特性与缺点

HDFS 特性1.海量数据储存：hdfs可以横向扩展，储存的文件可以支持pb级别的数据2.高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动恢复可构建在廉价（与大小型机比）的机器上，实现线性扩展（随着节点的增加，集群的储存能力，计算能力随之增加）3.大文件存储：dfs采用数据块的方式存储数据，将一个大文件拆分为小文件，分布储存HDFS缺点1.不能做到低延迟数据访问：hd...

2019-11-05 15:16:12 286

原创 HDFS的写入和读取流程

HDFS的写入流程1.client 发起文件上传请求，通过rpc与namenode建立通讯，namenode检查目标文件是否已经存在，父目录是否存在，返回是否可以上传2.client 请求第一个block该传到哪些datanode服务器上3.namenode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：A，B，C；4、 client请求3台...

2019-11-05 09:24:11 325

原创 MapReduce的jobHistory介绍

MapReduce的jobHistory介绍目标：了解jobHistory的配置与作用我们可以通过Hadoop jar的命令来实现我们的程序jar包的运行，关于运行的日志，我们一般都需要通过启动一个服务来进行查看，就是我们的JobHistoryServer，我们可以启动一个进程，专门用于查看我们的任务提交的日志第一步：node01修改mapred-site.xmlnode01服务器修改m...

2019-11-04 09:34:58 796 4

原创 CDH 分布式环境搭建

CDH 分布式环境搭建目标：搭建基于CDH的分布式集群安装环境服务部署规划第一步：上传压缩包并解压将我们重新编译之后支持snappy压缩的Hadoop包上传到第一台服务器并解压第一台机器执行以下命令cd /export/softwares/mv hadoop-2.6.0-cdh5.14.0-自己编译后的版本.tar.gz hadoop-2.6.0-cdh5.14.0.tar.gz...

2019-11-04 09:22:03 282

原创 CDH版本Hadoop重新编译

CDH版本Hadoop重新编译**目标：重新编译CDH版本的Hadoop**1. 准备编译环境linux环境准备一台linux环境，内存4G或以上，硬盘40G或以上，我们这里使用的是Centos6.9 64位的操作系统（注意：一定要使用64位的操作系统）2.虚拟机联网，关闭防火墙，关闭selinux关闭防火墙命令：service iptables stopchkconfig...

2019-11-04 09:11:39 302

原创 linux rpm软件包管理器

2 rpm 软件包管理器2.1 目标通过 rpm命令实现对软件的安装、查询、卸载RPM 是Red-Hat Package Manager（RPM软件包管理器）的缩写虽然打上了 red-hat 的标记, 但是理念开放, 很多发行版都采用, 已经成为行业标准2.2 路径第一步: rpm包的查询命令第二步: rpm包的卸载第三步: rpm包的安装切换到安装包目录中...

2019-10-25 15:21:23 494 5

原创 linux挂载持有系统镜像光驱

1.5 挂载持有系统镜像光驱1.5.1 目标因为 linux系统镜像中包含了常用的软件包, 就不用从网上下载了所以需要挂载持有系统镜像的光驱1.5.2 路径第一步: 将 linux系统镜像放到光驱中第二步: 创建目录 /mnt/cdrom第三步: 通过挂载建立硬件和系统目录的关系第四步: 到镜像中寻找按照包1.5.3 实现17. 目标虚拟机, 右键设置...

2019-10-25 15:20:02 277

原创 linux 挂载新的硬盘开机自动挂载

1 挂载新的硬盘1.1 目标虚拟机增加一块硬盘1.2 路径第一步: 了解linux系统分区的原理第二步: 查看系统分区情况第三步: 虚拟机增加硬盘第四步: 分区第五步: 格式化第六步: 挂载第七步: 设置重启后挂载不失效1.3 实现第一步: 了解linux系统分区的原理一个硬盘可以分成多个分区用户不能直接操作硬件, 需要让硬件和系统的目录建立映射关系(挂载...

2019-10-25 15:18:44 256

原创大数据介绍及集群安装

大数据介绍及集群安装第一部分《大数据概述》传统数据如何处理？什么是大数据？传统数据与大数据的对比大数据的特点？大数据前/后服务器系统安装部署区别是什么？。大数据生态系统以及技术组件介绍大数据技术为什么快？什么是分布式存储？分布式计算？Hadoop生态系统的组件传统与大数据的对比第二部分《Hadoop详解》Hadoop的介绍以及发展历史Hadoop的历史版本介绍Had...

2019-10-24 17:22:19 658 2

原创大数据简介随堂笔记

什么是大数据？字面意思理解：大量的数据，海量的数据数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据有什么特点？海量化数据量大（多）多样化结构化数据，半结构化数据，和非结构化数据快速化数据的增长速度快高价值海量数据价值高大数据能做什么？ 1、海量数据快速查询 2、海量数据的存储（数据量大，单个大文...

2019-10-23 19:56:32 194

原创蔡狗_linux04汇总

1 挂载新的硬盘1.1 目标虚拟机增加一块硬盘1.2 路径第一步: 了解linux系统分区的原理第二步: 查看系统分区情况第三步: 虚拟机增加硬盘第四步: 分区第五步: 格式化第六步: 挂载第七步: 设置重启后挂载不失效1.3 实现第一步: 了解linux系统分区的原理一个硬盘可以分成多个分区用户不能直接操作硬件, 需要让硬件和系统的目录建立映射关系(挂载...

2019-10-21 20:11:34 473

原创蔡狗_linux03 练习管道相关命令

课后题1、cut命令中各个参数表示什么意思?(1)-b 仅显示行中指定直接范围的内容(2)-c 仅显示行中指定范围的字符(3)-d 指定字段的分隔符，默认的字段分隔符为“TAB”(4)-f 显示指定字段的内容(5)–complement 补足被选择的字节、字符或字段(6)-n 与“-b”选项连用，不分割多字节字符(7)–version 显示指令的版本信息2、写出下列操作有一个学...

2019-10-17 08:33:55 525

原创 linux 将一个新硬盘能够挂载到linux 系统上

目标：将一个新硬盘能够挂载到linux 系统上（开机自动挂载）第一步：查看当前系统磁盘挂载查看系统硬盘挂载情况： lsblk -f （老师不离开）sda├─sda1 ext4 7cc94e03-8b1a-4845-97fb-49a2c39afd8c /boot├─sda2 ext4 fe1d0...

2019-10-16 20:13:13 851 9

原创拓展反爬虫项目

反爬虫项目阶段划分目标：了解反爬虫项目的阶段划分，以及每个阶段要学习的内容第一阶段加粗样式反爬虫项目总体价绍，主要包括（背景、需求、流程、架构、openresty介绍、lua语法学习）第二阶段Lua采集数据写入kafka,搭建项目框架、Streaming读取kafka数据、链路统计功能实现第三阶段实现数据预处理的数据清洗、脱敏、拆分、分类（飞行类型/操作类型，单程/往返）、解析等功...

2019-10-15 20:28:30 482 10

原创 linux管道相关命令

管道相关命令目标cutsortwcuniqteetrsplitawksedgrep准备工作zhangsan 68 99 26lisi 98 66 96wangwu 38 33 86zhaoliu 78 44 36maq 88 22 66zhouba 98 44 46以上是成绩表信息使用逗号分割, 第一列是姓名, 第二列是语文成绩,...

2019-10-15 19:57:19 490 1

空空如也

空空如也