Pioneer_1-CSDN博客

原创 azkaban介绍

azkaban介绍1.介绍：1.1 什么是azkaban1.2 azkaban的特点1.3 常见工作调度系统1.4 ooize和azkaban特性对比1.5 Azkaban的架构2. 实战2.1 单机2.2 多机2.2.1 数据库2.2.2 部署executor2.2.3 部署web3.常见错误修复1.介绍：1.1 什么是azkaban1.2 azkaban的特点1.3 常见工作调度系统1.4 ooize和azkaban特性对比1.5 Azkaban的架构Azkaban由三个关键组件构

2020-07-29 17:11:44 1259

原创 kafka总结

kafka总结1.介绍2. Why要学习kafka2.1 主题和日志2.2 生产者2.3 消费者：2.4.卡夫卡作为一种信息传递系统2.5 卡夫卡作为一个存储系统2.6.用于流处理的Kafka2.7.把碎片放在一起3.实战3.1单机版3.2高可用3.3 其他实战3.4 测试高可用3.5 Kafka的导入导出操作3.6 代码连接kafka1.介绍Kafka:是一个消息队列,流平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错、持久的方式存储记录流。当记录发生时，处理记录

2020-07-29 15:01:59 480

原创 sqoop配置

sqoop配置1. sqoop21.1服务器端1.2工具（导入、导出元数据）1.3客户端1. sqoop21.1服务器端选择node4 来安装sqoop2（请删除zookeeper日志、hadoop日志）首先进入此目录core-site.xml文件中增加如下hadoop的配置,cd /data/hadoop/hadoop/etc/hadoop<property> <name>hadoop.proxyuser.root.hosts</name> &lt

2020-07-28 11:10:22 1235

原创 JDBC（java连接msql,java连接hbase，java连接hive）

JDBC1.java连接msql2.java连接hbase3.java连接hive1.java连接msqlimport java.sql.*;public class JDBC_java_mysql { public static void main(String[] args) throws ClassNotFoundException { Class.forName("com.mysql.cj.jdbc.Driver"); String url = "

2020-07-16 15:13:03 574

原创 flume介绍与配置

flume介绍与配置1.介绍2.数据来源3.实战3.1 HW3.1.1本地连本地3.1.2设置允许外部链接到本地1.介绍Flume(水槽):采集工具,将大数据分散的数据源(数据库,日志)统一采集到一个地方(hdfs),官网:http://flume.apache.org/Flume是一种分布式、可靠和可用的服务，可以高效地收集、聚合和移动大量的日志数据。它具有基于流数据流的简单灵活的体系结构。它具有鲁棒性和容错性，具有可调的可靠性机制和多种故障转移和恢复机制。它使用了一个简单的、可扩展的数

2020-07-16 13:43:01 1812

原创 Hbase配置（单机版，高可用,hbase连接hive）

Hbase配置（单机版，高可用）1.单机版2.高可用版：1.单机版不用启动集群（因为是单机版）和zookeeper（因为hbase自带）随机选择一台服务器(node3)将hbase压缩包（hbase-2.2.5-bin.tar.gz为例）上传到node3服务器上所有的操作都是在/data/hbase（新创建文件夹）目录下面;解压压缩包tar xzvf hbase-2.2.5-bin.tar.gz去掉版本号mv hbase-2.2.5/ hbase删除文档（有就删，没有不删）rm -

2020-07-13 21:07:35 608

原创 CentOS7虚拟机创建与配置（Oracle VM VirtualBox）

666

2020-07-07 09:46:36 1084

原创右键快捷打开（管理员模式）cmd的方法

先新建一个记事本，复制下面的语句到记事本里面Windows Registry Editor Version 5.00[HKEY_CLASSES_ROOT\Directory\Background\shell\runas]@="在此处打开CMD(管理员)""ShowBasedOnVelocityId"=dword:00639bc8[HKEY_CLASSES_ROOT\Directory\B...

2020-04-25 18:24:14 757 1

原创 mysql压缩包安装教程

1.下载解压下载安装包（官网或者用我个人的）官网：https://www.mysql.com/个人：https://pan.baidu.com/s/1cIw2YxzDYp-toqGEbDMX8A提取码：rtsr2.配置环境变量3.初始化mysql首先管理员运行cmd方式一：（常用）进入mysql中的bin目录进行以下命令初始化数据库，并设置默认root密码为过期的随机密码...

2020-04-16 17:12:30 681

原创 java连接hive（jdbc）

进行以下操作时确保已经启动，mysql，hive创建java项目导入本地驱动包jdbc的代码创建java项目导入本地驱动包驱动包在F:\qq\qq文件\学习软件\hive-3.1.2-bin\apache-hive-3.1.2-bin\jdbc第一步Window–Preferences(预设)–Java–Build Path–User Libraries点New，输入hive，点...

2020-03-24 18:25:51 1467 1

原创 hive的使用(实战)

hive的使用简单操作修改表修改列名添加新列,和替换列导入导出导入导出表：导入导出数据：创建表truncate、delete和drop的区别简单操作在mysql中可以,在hive中不可以show databases like '%da%'删除数据库drop database database_name;修改数据库属性alter database my_2 set location...

2020-03-23 16:09:29 652

原创 hadoop-ha后的hive配置的三种模式

1.本地模式首先node1、2、3进入zookeeper目录启动启动zookeeper，bin/zkServer.sh start之后新打开一个node3窗口进入zookeeper目录启动zookeeper客户端bin/zkCli.sh然后再node1进入hadoop目录启动hadoopsbin/start-all.sh在node4机器上、/data/目录下创建hive文件夹...

2020-03-20 16:01:43 1172

原创 Hadoop高可用搭建（centos7）

Hadoop高可用搭建（centos7）1，替换配置文件：首先确保node1–4都有Hadoop 并且已配置jdk、zookeeper然后将配置文件替换到 node1的/data/hadoop/hadoop/etc/hadoop目录下替换文件在网盘中...

2020-03-19 15:22:00 520

原创 MapReduce总结

1. MapReduce概述：MapReduce是一个分布式运算程序的编程框架，是用户开发“ 基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。1.2 MapReduce优缺点优点MapReduce易于编程它简单的实现- -些接口，就可以完成一一个分布...

2019-12-28 17:56:48 1175

原创 hadoop集群配置

Hadoop是什么Hadoop三大发行版本Hadoop三大发行版本：Apache、Cloudera、Hortonworks。Apache版本最原始（最基础）的版本，对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。Hadoop的优势（4高）1)可靠性: Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也...

2019-12-22 19:04:23 321

原创 HDFS知识总结

1.hdfs组成，namenode、datanode、senconarynamenode作用?hdfs由namenode、datanode、senconarynamenode 、client组成作用：namenode：是一个主管，管理者(1) 管理HDFS的名称空间;(2)配置副本策略;(3) 管理数据块(Block) 映射信息;(4)处理客户端读写请求。dataNode:(1)...

2019-12-22 18:38:28 227

原创 Linux命令下半部分

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-12-15 20:09:52 271

原创 Linux命令总结上半部分

一、Linux权限的概念Linux下有两种用户：普通用户和超级用户（）。普通用户：在linux下做有限的事情；超级用户：可以在linux系统下做任何事情，不受限制。普通用户的提示符是“$”,超级用户的命令提示符是“#”。命令： su [用户名]功能：切换用户Linux权限管理1.文件访问者的分类（人）文件和文件目录的所有者：u—User文件和文件目录的所有者所在的组的用户：g—...

2019-12-12 20:01:03 203

原创 hive总结（上半部分）

1.什么是hive？Hive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上1.2 Hive的优缺点优点：...

2019-12-06 15:10:55 387

原创 Zookeeper总结

1. Zookeeper是什么?Zookeeper是一个分布式协调服务的开源概架，主要用来解决分布式集群中应用系统的一致性问题，例如怎样避免网时操作同一数据造成脏读的间题，ZooKee区本质上是一个分布式的小文件存储系统，提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理，从而用来维护和监控你存储的数据的状态变化，通过监控这些数据状态的变化，从而可以达到基于数...

2019-12-06 14:34:30 210

Pioneer_1的博客