qq_42078469-CSDN博客

原创 clickhouse安装

https://www.jianshu.com/p/e59077efcb7d

2019-12-10 10:07:32 207

原创 kafka命令

Kafka命令行操作//启动kafka服务，三台主机分别输入此指令：kafka-server-start.sh $KAFKA_HOME/config/server.properties &//以后台的方式启动nohup kafka-server-start.sh $KAFKA_HOME/config/server.properties &//查看topic名k...

2019-11-20 21:17:33 142

原创集群分发脚本

分发脚本使用前提配置ip和主机名称的映射需要让linux01机器知道linux02和linux03代表的是哪个ip配置SSH无密钥登录（不使用密码登录）（1）在/usr/local/bin目录下创建xsync文件，文件内容如下：cd /usr/local/binvim xsync #!/bin/bash #1 获取输入参数个数，如果没有参数，直接退出...

2019-11-07 22:59:53 178

原创 Hadoop完全分布式集群搭建

准备三台虚拟机在三台机器的/etc/hosts文件中配置主机名和ip的映射 DEVICE=eth0 #接口名（设备,网卡） HWADDR=00:0C:2x:6x:0x:xx #MAC地址 TYPE=Ethernet #网络类型（通常是Ethemet） UUID=926a57ba-92c6-4231-ba...

2019-11-07 22:58:06 125

原创 Zookeeper安装

0．官网首页：https://zookeeper.apache.org/1．集群规划在hadoop101、hadoop102和hadoop103三个节点上部署Zookeeper。2．解压安装1）解压zookeeper安装包到/opt/module/目录下[root@hadoop101software]$ tar -zxvf zookeeper-3.4.10.tar.gz ...

2019-11-07 22:54:23 128

原创 Hive安装

2.1Hive安装地址1．Hive官网地址http://hive.apache.org/2．文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3．下载地址http://archive.apache.org/dist/hive/4．github地址https://github.c...

2019-11-07 22:50:24 144

原创 Hbase安装

2.1 Zookeeper正常部署首先保证Zookeeper集群的正常部署，并启动之：[atguigu@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start[atguigu@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start[atguigu@hadoop104 zookeeper-3....

2019-11-07 22:45:08 197

数据仓库与数据湖当企业从运营系统获得大量数据可用于分析时，他们通常会选择数据仓库或数据湖泊。数据仓库通常作为单一数据源，存储着经过清理和分类的历史数据。数据库中的数据可能不准确，并可能来自企业运营系统之外，它并不适合普通业务分析用户。实际的仓库和湖泊：仓库存储来自特定来源的计划好的货物，而湖泊来自河流、溪流和其他来源，且都是原始内容。数据仓库和数据集市数据集市通常是数据仓库的子集，其中的数据...

2019-11-07 18:17:21 473

原创 hive的问题汇总以及问题解析

1.Hive内部表与外部表的区别未被external修饰的是内部表，被external修饰的是外部表区别：（1）内部表数据由hive自身管理，外部表数据由HDFS管理（2）内部表数据存储的位置默认是（/user/hive/warehouse）外部表数据的存储位置由自己指定（3）删除内部表会直接删除元数据以及存储数据；删除外部表仅仅会删除元数据 HDFS上的文件不会被删除（4）对外部表...

2019-11-02 10:15:31 657

原创 Flume 的安装与使用

安装步骤Flume安装地址1） Flume官网地址http://flume.apache.org/2）文档查看地址http://flume.apache.org/FlumeUserGuide.html3）下载地址http://archive.apache.org/dist/flume/安装部署1）将apache-flume-1.7.0-bin.tar.gz上传到linu...

2019-11-01 21:31:49 264

原创 hive的排序以及常用的一些函数

全局排序（Order by）1.按照别名排序 hive (default)> select ename, sal*2 twosal from emp order by twosal;2.多个列排序 hive (default)> select ename, deptno, sal from emp order by deptno, sal ;每个MapReduce内部...

2019-11-01 18:14:44 352

原创 sqoop的安装以及数据的导入导出

使用场景Haoop文件存储体系（HDFS、Hive、Hbase）与关系型数据库（Mysql）之间的数据导入导出。Sqoop安装下载并解压安装Sqoop的前提是已经具备Java和Hadoop的环境。 1) 最新版下载地址：http://mirrors.hust.edu.cn/apache/sqoop/ 2) 上传安装包sqoop-1.4.6.bin__hadoop-2.0...

2019-11-01 18:13:23 114

原创 shell脚本 hive 批量导入文件到hdfs 分区

建表语句hive (default)> create table dept_partition(deptno int, dname string, loc string)partitioned by (month string)row format delimited fields terminated by '\t';shell 脚本#!/bin/bashaction="...

2019-10-31 20:48:43 764 4

原创 spring cloud

单体应⽤存在的问题随着业务的发展，开发变得越来越复杂。修改、新增某个功能，需要对整个系统进⾏测试、重新部署。⼀个模块出现问题，很可能导致整个系统崩溃。多个开发团队同时对数据进⾏管理，容易产⽣安全漏洞。各个模块使⽤同⼀种技术进⾏开发，各个模块很难根据实际情况选择更合适的技术框架，局限性很⼤。模块内容过于复杂，如果员⼯离职，可能需要很⻓时间才能完成⼯作交接。分布式、集群集群：⼀台服务...

2019-10-31 08:49:47 175

原创 hdfs输入类 FileInputFormat的实现类

CombineTextInputFormat0.概述框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。应用场景：CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，...

2019-10-31 08:47:43 329

原创 hive的 DDL DML等等

DDL数据库定义创建数据库1.创建一个数据库 create database db;2.避免要创建的数据库已经存在 create database if not exists db;3.创建数据库时，指定数据库在hdfs上存放的位置 create database db location '/user'查询数据库1.显示数据库 show databases；2.过滤...

2019-10-30 20:25:36 211

原创宝塔安装yml源

yum install -y wget && wget -O install.sh http://download.bt.cn/install/install.sh && sh install.sh

2019-10-30 14:19:14 592

原创 git的安装和使用

1.下载gitsysgit.github.io2.安装git选择 user git from git bush only 其他全部选择下一步3.配置git的环境变量D:\Git\bin4.右键桌面任意位置选择git push here5.配置用户名git config --global user.name “root”6.配置密码git config --global use...

2019-10-02 13:52:38 106

qq_42078469的博客