自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 MySQL-binlog日志(日志管理&案例:使用binlog日志进行数据恢复)

Binlog概念Binlog其实是(binary log)MySQL的二进制日志,以二进制的形式记录了对于数据库的变更操作,不包括select和show操作。用来查看MySQL变更 MySQL的备份恢复 MySQL的主从复制文件位置Binlog默认放置在数据目录下Binlog的命名方式mysql-bin.000001binlog文件的生成方式MySQL启动的时候会产生binlog MySQL服务器在执行flush logs;可以产生新的binlog文件关于binlog的

2020-05-30 21:10:36 9657

原创 CDH6.3.1安装

CDH6.3.1安装遇到很多问题,我想主要是由于条件有限,毕竟自己的电脑内存不如专业集群的内存大(如果是内存和硬盘充足,有些是可以避免的,甚至不会出现报错的情况),这里就介绍一下我用VMware安装的虚机中搭建CDH集群的辛酸历程。为了避免多次、重复安装不成功,所以需要具备以下条件:1. 内存要足够大我的电脑内存是8G:使用虚拟机安装Cloudare server:4GCloudare agent:分别为1G电脑最后很卡,而且内存98%。官方推荐最小内存为10G,所以最好还是听从官方的建...

2020-05-28 17:16:46 5891 4

原创 9 DataNodes are required for the erasure coding policies: RS-6-3-1024k

刚装的CDH6.2.1版本的集群172.30.81.203 manager172.30.81.204 node1172.30.81.205 node2172.30.81.206 node3存在隐患:9 DataNodes are required for the erasure coding policies: RS-6-3-1024k.The number of DataNodes is only 3.解决方案使用RS-6-3-1024k编码纠删码策略至少需要9个DataNode

2020-05-26 14:50:22 9056 6

原创 kettle在Linux上的安装、案例,调优

2.4 Linux下安装使用2.4.1 单机1)jdk安装2)安装包上传到服务器,解压注意:1. 把mysql驱动拷贝到lib目录下 2. 将本地用户家目录下的隐藏目录C:\Users\自己用户名\.kettle,整个上传到linux的家目录/home/atguigu/下3)运行数据库资源库中的转换:[atguigu@hadoop102 data-integration]$./pan.sh -rep=my_repo -user=admin -pass=admin ...

2020-05-24 14:56:12 3187 1

原创 kettle在windows上安装与实践案例

第1章 kettle概述1.1 什么是kettleKettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。1.2 Kettle核心知识点1.2.1 Kettle工程存储方式1) 以XML形式存储2) 以资源库方式存储(数据库资源库和文件资源库)1.2.2 Kettle的两种设计简述:Transformation(转换):完成针对数据的基础转换。 Job(作业):完成整个工作流的控制。...

2020-05-24 00:12:28 2943

原创 MapReduce经典4幅图(数据流向图、word count过程图、shuffle工作流程图(map端、reduce端)、MapReduce原理图)

MapReduce经典4幅示意图第一幅示意图:数据流向图数据流首先进行了分片(与HDFS的分块大小一致),然后每个分片会分配给一个map进行处理,之后针对reduce的数量产生对应的输出分片,这里原先的分片顺序会打乱,类似于洗牌,之后分别交给reduce处理后输出结果。第二幅示意图:word count过程图将input的文件拆分成splits,由于测试用的文件较小,所以每个文件作为一个split,并将文件按行分割。这一步由mapreduce框架自动完成。 将分割好的文件交给用户定

2020-05-20 17:08:06 6176

原创 Kafka安装与验证

把kafka_2.11-0.10.1.0.tgz上传到/usr/hadoop目录下:命令:rz解压:tar -zxvfkafka_2.11-0.10.1.0.tgz配置环境变量 /etc/profile使环境变量生效source /etc/profilecpserver.propertiesserver1.propertiescpserver.propertiesserver2.properties修改/kafka_2.11-0.10.1.0/config下的serve...

2020-05-20 12:52:45 2596 2

原创 Hive之系统内置函数&自定义函数(UDF、UDAF、UDTF)介绍和案例(附带完整代码)、IDEA运行Hive

1.1 系统内置函数1.查看系统自带的函数hive (default)> show functions;2.显示自带的函数的用法hive (default)> desc function upper;3.详细显示自带的函数的用法hive (default)> desc function extended upper;1.2 自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限(大概二、三百个),自己可以通过自定义 UDF来方便的

2020-05-13 12:31:34 4458

原创 Hive之查询JOIN、排序(order by、sort by、distribute by、cluster by)、分桶&分桶抽样查询、窗口函数及案例

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availablestarting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_re

2020-05-11 18:51:36 2064

原创 Linux命令-查看CPU型号,内存大小,硬盘空间

1 查看CPU1.1 查看CPU个数# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l4**uniq命令:删除重复行;wc –l命令:统计行数**1.2 查看CPU核数# cat /proc/cpuinfo | grep "cpu cores" | uniqcpu cores : 41.3 查看CPU型号# cat /proc/cpuinfo | grep 'model name' |uniqmode.

2020-05-26 18:29:43 4493 1

原创 linux命令-查看磁盘,文件夹大小

一、df命令语法df [选项] [文件名]参数:-a:--all,显示所有的文件系统,包括虚拟文件系统,参考示例2。-B:--block-size,指定单位大小。比如1k,1m等,参考示例3。-h:--human-readable,以人们易读的GB、MB、KB等格式显示,参考示例4。-H:--si,和-h参数一样,但是不是以1024,而是1000,即1k=1000,而不是1k=1024。-i:--inodes,不用硬盘容量,而是以inode的数量来显示,参考示例5。-k:以KB的容量显示各文

2020-05-26 13:40:52 6578 2

原创 Hadoop Shell命令速查表

HDFS命令有两种风格 : hadoop fs开头的 hdfs dfs开头的两种命令均可使用,效果相同 命令 使用方法 作用 ls hadoop fs -ls 如果是文件,则按照如下格式返回文件信息:文件名 <副本 数>文件大小 修改日期 修改时间 权限 用户ID 组ID ,如果是 目录,则返回它直接子文件的一个列表,就像在Unix中一样 ....

2020-05-20 16:04:15 846

原创 HDFS原理(超详解)

简介 HDFS(Hadoop Distributed File System )Hadoop 分布式文件系统。是根据 google 发 表的论文翻版的。论文为 GFS(Google File System)Google 文件系统。HDFS 有很多特点:① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存 3 份。② 运行在廉价的机器上。③ 适合大数据的处理。多大?多小?HDFS 默认会将文件分割成 block,64M 为 1 个 block。然后将block按键值对存储在HD

2020-05-20 15:45:24 5359 1

原创 Hadoop简介(HDFS、MR、HDFS读写文件详解)

Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成;HDFS:NN Federation、HAMapReduce:运行在YARN上的MRYARN:资源管理系统Hadoop核心Hadoop的核心就是HDFS(Hadoop Distributed File System,Hadoop分布式文件系统 )和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapRedu.

2020-05-20 14:13:57 2036

原创 Kafka最全介绍

Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建背景Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(Activity Strea

2020-05-20 13:10:26 1752 2

原创 sqoop安装与验证

解压将sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz拷贝到linux下,然后解压tar –zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz然后进入新生成的目录cd sqoop-1.4.6.bin__hadoop-2.0.4-alphacd /confcp sqoop-env-template.sh sqoop-env.sh修改sqoop-env.sh(下面的目录换成你自己的安装目录) #

2020-05-15 17:46:16 1846

原创 HBase安装与验证

在某一台上解压hbase的压缩文件,如在192.168.102.128tar –zxvf hbase-1.2.0-bin.tar.gz配置添加环境变量:#hbaseexport HBASE_HOME=/usr/tools/hbase-1.2.0export PATH=$PATH:$HBASE_HOME/bin使环境变量生效source /etc/profile进入hbase的conf目录,需要修改三个文件:hbase-env.sh、hbase-site.xm...

2020-05-15 17:38:30 2150

原创 zookeeper安装与验证

三台服务器:192.168.102.128 node4192.168.102.129 node5192.168.102.130 node6在每台服务器的host中添加:192.168.102.128 node4192.168.102.129 node5192.168.102.130 node6随便在某一台上如:192.168.102.128解压zookeeper压缩文件:tar –zxvf zookeeper-3.4.8.tar.gz配置环境变量:#zo.

2020-05-15 17:36:48 2129

原创 Hive之20个常用函数

1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:2. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:3. 字符串连接函数:concat语法: concat(string A, string B…)返回值: string说明:返回输入字符串连接后的结果,支持任意个输入字符串举例......

2020-05-15 14:55:16 1724

原创 慎用kill -9命令!!!

Kill -9 命令慎用我们都知道,想要 在Linux中终止一个进程有两种方式,如果是前台进程可以使用Ctrl+C键进行终止;如果是后台进程,那么需要使用kill命令来终止。 (其实Ctrl+C也是kill命令)kill命令的格式是:kill[参数][进程号]如:kill 21121kill -9 21121其中[参数]是可选的,进程号可以通过jps/ps/pidof/pstree/top等工具获取。kill的命令参数有以下几种:-l 信号,若果不加信号的编号参数,则使用

2020-05-15 12:50:36 11927 2

原创 Hive之企业优化

1.1 Fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查

2020-05-14 16:29:41 272

原创 Hive之DML数据操作(重点)

1.1 数据导入1.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/data/student.txt' [overwrite] into table student[partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表(复制);否则从 HDFS 加载数据到 hive 表(移动)(3)inpath:表示加载数据的路

2020-05-09 17:40:00 244

原创 Hive之DDL数据定义(重点)

一、创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)hive (default)> create database db_hive;FAILED: Execution Error, return code 1 from org.apac

2020-05-09 14:34:44 1071

原创 Hive数据类型&类型转换

1. 基本数据类型 Hive数据类型 Java 数据类型 长度 例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整...

2020-05-08 14:34:46 7834

原创 Hive常用交互命令&属性配置

一、Hive常用交互命令1. 使用hive –help命令查看有哪些交互命令 which: no hbase in (/usr/java/jdk1.8/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/opt/module/hive/apache-hive-2.1.0-bin/bin:/opt/module/hadoop...

2020-05-08 13:38:12 1210

元旦倒计时代码,更改上面的日期,以后年年都可以用

疫情三年,2022年即将过完,疫情也告一段落,2023年元旦即将来临,思念把距离缩短,关怀把寒冷驱赶,兔年把欢乐席卷,祝福把心头温暖,心情把快乐顺延,心态把烦恼抛远,邮票把吉祥集全,新年把好运装满!兔年大吉!兔年带着喜庆来,祝福伴着开心到,愿你工作爱情双喜临门,新朋老友心心相印,财运和你纠缠不清,福运和你形影不分。祝你吉祥之年事事如意,步步高升。最近一直心心念念的想着元旦,于是乎就敲了一个元旦倒计时的代码出来,大家用的时候可以更改上面的日期,以后年年都可以用。

2022-12-14

ubuntu安装.docx

Ubuntu是一个以桌面应用为主的Linux操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu"一词,意思是“人性”“我的存在是因为大家的存在",是非洲传统的一种价值观。Ubuntu基于Debian发行版和Gnome桌面环境,而从11.04版起,Ubuntu发行版放弃了Gnome桌面环境,改为Unity。

2020-07-30

HPL语法.docx

HPL / SQL允许您从单个HPL / SQL脚本同时访问多个数据库。即同一个脚本支持使用多个数据库。 为什么是多个数据库? Hadoop扩展,而不是替代传统的数据仓库,因此您必须使用不同系统的不同类型的工作负载。

2020-07-30

Inceptor SQL语法.docx

在PL/SQL中,可以用常量和变量存储值,在程序运行过程中,变量的值可以改变,常量的值不能改变。可以在任何PL/SQL语句块,子过程,包等的声明部分去声明一个常量或者变量。

2020-07-30

ER-图知识点归纳.docx

E-R图即实体-联系图(Entity Relationship Diagram),是指提供了表示实体型、属性和联系的方法,用来描述现实世界的概念模型。E-R方法:是“实体-联系方法”(Entity-Relationship Approach)的简称。它是描述现实世界概念结构模型的有效方法。

2020-07-30

Apache Kafka的流式SQL引擎——ksql.docx

KSQL 引擎——一个基于流的 SQL。推出 KSQL 是为了降低流式处理的门槛,为处理 Kafka 数据提供简单而完整的可交互式 SQL 接口。KSQL 目前可以支持多种流式操作,包括聚合(aggregate)、连接(join)、时间窗口(window)、会话(session),等等。

2020-07-30

Redis指南.docx

Redis是一个开源的高性能键值对数据库。它通过提供多种键值数据类型来适应不同场景下的存储需求,并借助许多高层级的接口使其可以胜任如缓存、队列系统等不同的角色。 本章将分别介绍Redis的历史和特性,以使读者能够快速地对Redis有一个全面的了解。

2020-07-30

kudu1.6RPM安装包.rar

kudu离线RPM安装包,包括kudu-tserver-1.6.0、kudu-master-1.6.0、kudu-debuginfo-1.6.0、kudu-client-devel-1.6.0、kudu-client0-1.6.0、kudu-1.6.0

2020-06-19

Nifi安装&案例实践.docx

简单地说,NiFi是为了自动化系统之间的数据流而构建的。NiFi的基本设计概念与基本流程的编程[FBP]的主要思想密切相关。

2020-04-28

什么是一致性.docx

Client:系统外部角色,请求发起者。像民众。(不参与投票) Propser:接受client请求,向集群提出提议(propose)。并在冲突发生时,起到冲突调节的作用。像议员,替民众提出议案。 Acceptor(voter):提议投票和接收者,只有在形成法定人数(quorum,一般即为majority多数派)时,提议才会最终被接受。像国会。 Learner:提议接受者,backup,备份,对集群一致性没什么影响。像记录员。(不参与投票)

2020-04-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除