- 博客(18)
- 收藏
- 关注
原创 kafka命令
Kafka命令行操作//启动kafka服务,三台主机分别输入此指令:kafka-server-start.sh $KAFKA_HOME/config/server.properties &//以后台的方式启动nohup kafka-server-start.sh $KAFKA_HOME/config/server.properties &//查看topic名k...
2019-11-20 21:17:33 142
原创 集群分发脚本
分发脚本使用前提配置ip和主机名称的映射需要让linux01机器知道linux02和linux03代表的是哪个ip配置SSH无密钥登录(不使用密码登录)(1)在/usr/local/bin目录下创建xsync文件,文件内容如下:cd /usr/local/binvim xsync #!/bin/bash #1 获取输入参数个数,如果没有参数,直接退出...
2019-11-07 22:59:53 178
原创 Hadoop完全分布式集群搭建
准备三台虚拟机在三台机器的/etc/hosts文件中配置主机名和ip的映射 DEVICE=eth0 #接口名(设备,网卡) HWADDR=00:0C:2x:6x:0x:xx #MAC地址 TYPE=Ethernet #网络类型(通常是Ethemet) UUID=926a57ba-92c6-4231-ba...
2019-11-07 22:58:06 125
原创 Zookeeper安装
0.官网首页:https://zookeeper.apache.org/1.集群规划在hadoop101、hadoop102和hadoop103三个节点上部署Zookeeper。2.解压安装1)解压zookeeper安装包到/opt/module/目录下[root@hadoop101software]$ tar -zxvf zookeeper-3.4.10.tar.gz ...
2019-11-07 22:54:23 127
原创 Hive安装
2.1Hive安装地址1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github地址https://github.c...
2019-11-07 22:50:24 144
原创 Hbase安装
2.1 Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之:[atguigu@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start[atguigu@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start[atguigu@hadoop104 zookeeper-3....
2019-11-07 22:45:08 196
原创 数据仓库、数据集市、数据湖、传统的数据库
数据仓库与数据湖当企业从运营系统获得大量数据可用于分析时,他们通常会选择数据仓库或数据湖泊。数据仓库通常作为单一数据源,存储着经过清理和分类的历史数据。数据库中的数据可能不准确,并可能来自企业运营系统之外,它并不适合普通业务分析用户。实际的仓库和湖泊:仓库存储来自特定来源的计划好的货物,而湖泊来自河流、溪流和其他来源,且都是原始内容。数据仓库和数据集市数据集市通常是数据仓库的子集,其中的数据...
2019-11-07 18:17:21 473
原创 hive的问题汇总以及问题解析
1.Hive内部表与外部表的区别未被external修饰的是内部表,被external修饰的是外部表区别:(1)内部表数据由hive自身管理,外部表数据由HDFS管理(2)内部表数据存储的位置默认是 (/user/hive/warehouse)外部表数据的存储位置由自己指定(3)删除内部表会直接删除元数据以及存储数据;删除外部表仅仅会删除元数据 HDFS上的文件不会被删除(4)对外部表...
2019-11-02 10:15:31 657
原创 Flume 的安装与使用
安装步骤Flume安装地址1) Flume官网地址http://flume.apache.org/2)文档查看地址http://flume.apache.org/FlumeUserGuide.html3)下载地址http://archive.apache.org/dist/flume/安装部署1)将apache-flume-1.7.0-bin.tar.gz上传到linu...
2019-11-01 21:31:49 263
原创 hive的排序以及常用的一些函数
全局排序(Order by)1.按照别名排序 hive (default)> select ename, sal*2 twosal from emp order by twosal;2.多个列排序 hive (default)> select ename, deptno, sal from emp order by deptno, sal ;每个MapReduce内部...
2019-11-01 18:14:44 349
原创 sqoop的安装以及数据的导入导出
使用场景Haoop文件存储体系(HDFS、Hive、Hbase)与关系型数据库(Mysql)之间的数据导入导出。Sqoop安装下载并解压 安装Sqoop的前提是已经具备Java和Hadoop的环境。 1) 最新版下载地址:http://mirrors.hust.edu.cn/apache/sqoop/ 2) 上传安装包sqoop-1.4.6.bin__hadoop-2.0...
2019-11-01 18:13:23 114
原创 shell脚本 hive 批量导入文件到hdfs 分区
建表语句hive (default)> create table dept_partition(deptno int, dname string, loc string)partitioned by (month string)row format delimited fields terminated by '\t';shell 脚本#!/bin/bashaction="...
2019-10-31 20:48:43 764 4
原创 spring cloud
单体应⽤存在的问题随着业务的发展,开发变得越来越复杂。修改、新增某个功能,需要对整个系统进⾏测试、重新部署。⼀个模块出现问题,很可能导致整个系统崩溃。多个开发团队同时对数据进⾏管理,容易产⽣安全漏洞。各个模块使⽤同⼀种技术进⾏开发,各个模块很难根据实际情况选择更合适的技术框架,局限性很⼤。模块内容过于复杂,如果员⼯离职,可能需要很⻓时间才能完成⼯作交接。分布式、集群集群:⼀台服务...
2019-10-31 08:49:47 175
原创 hdfs输入类 FileInputFormat的实现类
CombineTextInputFormat0.概述框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。应用场景:CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,...
2019-10-31 08:47:43 329
原创 hive的 DDL DML等等
DDL数据库定义创建数据库1.创建一个数据库 create database db;2.避免要创建的数据库已经存在 create database if not exists db;3.创建数据库时,指定数据库在hdfs上存放的位置 create database db location '/user'查询数据库1.显示数据库 show databases;2.过滤...
2019-10-30 20:25:36 211
原创 宝塔安装yml源
yum install -y wget && wget -O install.sh http://download.bt.cn/install/install.sh && sh install.sh
2019-10-30 14:19:14 592
原创 git的安装和使用
1.下载gitsysgit.github.io2.安装git选择 user git from git bush only 其他全部选择下一步3.配置git的环境变量D:\Git\bin4.右键桌面任意位置选择git push here5.配置用户名git config --global user.name “root”6.配置密码git config --global use...
2019-10-02 13:52:38 106
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人