2020年05月_AllenGd

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 MySQL-binlog日志（日志管理&案例：使用binlog日志进行数据恢复）

Binlog概念Binlog其实是（binary log）MySQL的二进制日志，以二进制的形式记录了对于数据库的变更操作，不包括select和show操作。用来查看MySQL变更 MySQL的备份恢复 MySQL的主从复制文件位置Binlog默认放置在数据目录下Binlog的命名方式mysql-bin.000001binlog文件的生成方式MySQL启动的时候会产生binlog MySQL服务器在执行flush logs；可以产生新的binlog文件关于binlog的

2020-05-30 21:10:36 9657

原创 CDH6.3.1安装

CDH6.3.1安装遇到很多问题，我想主要是由于条件有限，毕竟自己的电脑内存不如专业集群的内存大（如果是内存和硬盘充足，有些是可以避免的，甚至不会出现报错的情况），这里就介绍一下我用VMware安装的虚机中搭建CDH集群的辛酸历程。为了避免多次、重复安装不成功，所以需要具备以下条件：1. 内存要足够大我的电脑内存是8G：使用虚拟机安装Cloudare server：4GCloudare agent：分别为1G电脑最后很卡，而且内存98%。官方推荐最小内存为10G，所以最好还是听从官方的建...

2020-05-28 17:16:46 5891 4

原创 9 DataNodes are required for the erasure coding policies: RS-6-3-1024k

刚装的CDH6.2.1版本的集群172.30.81.203 manager172.30.81.204 node1172.30.81.205 node2172.30.81.206 node3存在隐患：9 DataNodes are required for the erasure coding policies: RS-6-3-1024k.The number of DataNodes is only 3.解决方案使用RS-6-3-1024k编码纠删码策略至少需要9个DataNode

2020-05-26 14:50:22 9056 6

原创 kettle在Linux上的安装、案例，调优

2.4 Linux下安装使用2.4.1 单机1)jdk安装2)安装包上传到服务器，解压注意：1. 把mysql驱动拷贝到lib目录下 2. 将本地用户家目录下的隐藏目录C:\Users\自己用户名\.kettle，整个上传到linux的家目录/home/atguigu/下3)运行数据库资源库中的转换：[atguigu@hadoop102 data-integration]$./pan.sh -rep=my_repo -user=admin -pass=admin ...

2020-05-24 14:56:12 3187 1

原创 kettle在windows上安装与实践案例

第1章 kettle概述1.1 什么是kettleKettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。1.2 Kettle核心知识点1.2.1 Kettle工程存储方式1) 以XML形式存储2) 以资源库方式存储(数据库资源库和文件资源库)1.2.2 Kettle的两种设计简述：Transformation（转换）：完成针对数据的基础转换。 Job（作业）：完成整个工作流的控制。...

2020-05-24 00:12:28 2943

原创 MapReduce经典4幅图（数据流向图、word count过程图、shuffle工作流程图（map端、reduce端）、MapReduce原理图）

MapReduce经典4幅示意图第一幅示意图：数据流向图数据流首先进行了分片（与HDFS的分块大小一致），然后每个分片会分配给一个map进行处理，之后针对reduce的数量产生对应的输出分片，这里原先的分片顺序会打乱，类似于洗牌，之后分别交给reduce处理后输出结果。第二幅示意图：word count过程图将input的文件拆分成splits，由于测试用的文件较小，所以每个文件作为一个split，并将文件按行分割。这一步由mapreduce框架自动完成。将分割好的文件交给用户定

2020-05-20 17:08:06 6176

原创 Kafka安装与验证

把kafka_2.11-0.10.1.0.tgz上传到/usr/hadoop目录下：命令：rz解压：tar -zxvfkafka_2.11-0.10.1.0.tgz配置环境变量 /etc/profile使环境变量生效source /etc/profilecpserver.propertiesserver1.propertiescpserver.propertiesserver2.properties修改/kafka_2.11-0.10.1.0/config下的serve...

2020-05-20 12:52:45 2596 2

原创 Hive之系统内置函数&自定义函数（UDF、UDAF、UDTF）介绍和案例（附带完整代码）、IDEA运行Hive

1.1 系统内置函数1．查看系统自带的函数hive (default)> show functions;2．显示自带的函数的用法hive (default)> desc function upper;3．详细显示自带的函数的用法hive (default)> desc function extended upper;1.2 自定义函数1）Hive 自带了一些函数，比如：max/min 等，但是数量有限(大概二、三百个)，自己可以通过自定义 UDF来方便的

2020-05-13 12:31:34 4458

原创 Hive之查询JOIN、排序（order by、sort by、distribute by、cluster by）、分桶&分桶抽样查询、窗口函数及案例

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法：[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availablestarting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_re

2020-05-11 18:51:36 2064

原创 Linux命令-查看CPU型号,内存大小,硬盘空间

2020-05-26 18:29:43 4493 1

原创 linux命令-查看磁盘，文件夹大小

一、df命令语法df [选项] [文件名]参数：-a：--all，显示所有的文件系统，包括虚拟文件系统，参考示例2。-B：--block-size，指定单位大小。比如1k，1m等，参考示例3。-h：--human-readable，以人们易读的GB、MB、KB等格式显示，参考示例4。-H：--si，和-h参数一样，但是不是以1024，而是1000，即1k=1000，而不是1k=1024。-i：--inodes，不用硬盘容量，而是以inode的数量来显示，参考示例5。-k：以KB的容量显示各文

2020-05-26 13:40:52 6578 2

原创 Hadoop Shell命令速查表

HDFS命令有两种风格： hadoop fs开头的 hdfs dfs开头的两种命令均可使用，效果相同命令使用方法作用 ls hadoop fs -ls 如果是文件，则按照如下格式返回文件信息：文件名 <副本数>文件大小修改日期修改时间权限用户ID 组ID ，如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样 ....

2020-05-20 16:04:15 846

原创 HDFS原理（超详解）

简介 HDFS（Hadoop Distributed File System ）Hadoop 分布式文件系统。是根据 google 发表的论文翻版的。论文为 GFS（Google File System）Google 文件系统。HDFS 有很多特点：① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存 3 份。② 运行在廉价的机器上。③ 适合大数据的处理。多大？多小？HDFS 默认会将文件分割成 block，64M 为 1 个 block。然后将block按键值对存储在HD

2020-05-20 15:45:24 5359 1

原创 Hadoop简介（HDFS、MR、HDFS读写文件详解）

Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成；HDFS：NN Federation、HAMapReduce：运行在YARN上的MRYARN：资源管理系统Hadoop核心Hadoop的核心就是HDFS(Hadoop Distributed File System，Hadoop分布式文件系统 )和MapReduce，而两者只是理论基础，不是具体可使用的高级应用，Hadoop旗下有很多经典子项目，比如HBase、Hive等，这些都是基于HDFS和MapRedu.

2020-05-20 14:13:57 2036

原创 Kafka最全介绍

Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展，“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建背景Kafka是一个消息系统，原本开发自LinkedIn，用作LinkedIn的活动流（Activity Strea

2020-05-20 13:10:26 1752 2

原创 sqoop安装与验证

解压将sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz拷贝到linux下，然后解压tar –zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz然后进入新生成的目录cd sqoop-1.4.6.bin__hadoop-2.0.4-alphacd /confcp sqoop-env-template.sh sqoop-env.sh修改sqoop-env.sh(下面的目录换成你自己的安装目录) #

2020-05-15 17:46:16 1846

原创 HBase安装与验证

在某一台上解压hbase的压缩文件，如在192.168.102.128tar –zxvf hbase-1.2.0-bin.tar.gz配置添加环境变量：#hbaseexport HBASE_HOME=/usr/tools/hbase-1.2.0export PATH=$PATH:$HBASE_HOME/bin使环境变量生效source /etc/profile进入hbase的conf目录，需要修改三个文件：hbase-env.sh、hbase-site.xm...

2020-05-15 17:38:30 2150

原创 zookeeper安装与验证

三台服务器：192.168.102.128 node4192.168.102.129 node5192.168.102.130 node6在每台服务器的host中添加：192.168.102.128 node4192.168.102.129 node5192.168.102.130 node6随便在某一台上如：192.168.102.128解压zookeeper压缩文件：tar –zxvf zookeeper-3.4.8.tar.gz配置环境变量：#zo.

2020-05-15 17:36:48 2129

原创 Hive之20个常用函数

1. 字符串长度函数：length语法: length(string A)返回值: int说明：返回字符串A的长度举例：2. 字符串反转函数：reverse语法: reverse(string A)返回值: string说明：返回字符串A的反转结果举例：3. 字符串连接函数：concat语法: concat(string A, string B…)返回值: string说明：返回输入字符串连接后的结果，支持任意个输入字符串举例......

2020-05-15 14:55:16 1724

原创慎用kill -9命令！！！

Kill -9 命令慎用我们都知道，想要在Linux中终止一个进程有两种方式，如果是前台进程可以使用Ctrl+C键进行终止；如果是后台进程，那么需要使用kill命令来终止。（其实Ctrl+C也是kill命令）kill命令的格式是：kill[参数][进程号]如：kill 21121kill -9 21121其中[参数]是可选的，进程号可以通过jps/ps/pidof/pstree/top等工具获取。kill的命令参数有以下几种：-l 信号，若果不加信号的编号参数，则使用

2020-05-15 12:50:36 11927 2

原创 Hive之企业优化

1.1 Fetch 抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查

2020-05-14 16:29:41 272

原创 Hive之DML数据操作(重点)

1.1 数据导入1.1.1 向表中装载数据（Load）1．语法hive> load data [local] inpath '/opt/data/student.txt' [overwrite] into table student[partition (partcol1=val1,…)];（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表（复制）；否则从 HDFS 加载数据到 hive 表（移动）（3）inpath:表示加载数据的路

2020-05-09 17:40:00 244

原创 Hive之DDL数据定义(重点)

一、创建数据库1）创建一个数据库，数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2）避免要创建的数据库已经存在错误，增加 if not exists 判断。（标准写法）hive (default)> create database db_hive;FAILED: Execution Error, return code 1 from org.apac

2020-05-09 14:34:44 1071

原创 Hive数据类型&类型转换

1. 基本数据类型 Hive数据类型 Java 数据类型长度例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整...

2020-05-08 14:34:46 7834

原创 Hive常用交互命令&属性配置

一、Hive常用交互命令1. 使用hive –help命令查看有哪些交互命令 which: no hbase in (/usr/java/jdk1.8/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/opt/module/hive/apache-hive-2.1.0-bin/bin:/opt/module/hadoop...

2020-05-08 13:38:12 1210

元旦倒计时代码，更改上面的日期，以后年年都可以用

疫情三年，2022年即将过完，疫情也告一段落，2023年元旦即将来临，思念把距离缩短，关怀把寒冷驱赶，兔年把欢乐席卷，祝福把心头温暖，心情把快乐顺延，心态把烦恼抛远，邮票把吉祥集全，新年把好运装满!兔年大吉!兔年带着喜庆来，祝福伴着开心到，愿你工作爱情双喜临门，新朋老友心心相印，财运和你纠缠不清，福运和你形影不分。祝你吉祥之年事事如意，步步高升。最近一直心心念念的想着元旦，于是乎就敲了一个元旦倒计时的代码出来，大家用的时候可以更改上面的日期，以后年年都可以用。

2022-12-14

ubuntu安装.docx

Ubuntu是一个以桌面应用为主的Linux操作系统，其名称来自非洲南部祖鲁语或豪萨语的“ubuntu"一词，意思是“人性”“我的存在是因为大家的存在"，是非洲传统的一种价值观。Ubuntu基于Debian发行版和Gnome桌面环境，而从11.04版起，Ubuntu发行版放弃了Gnome桌面环境，改为Unity。

2020-07-30

HPL语法.docx

HPL / SQL允许您从单个HPL / SQL脚本同时访问多个数据库。即同一个脚本支持使用多个数据库。为什么是多个数据库？ Hadoop扩展，而不是替代传统的数据仓库，因此您必须使用不同系统的不同类型的工作负载。

2020-07-30

Inceptor SQL语法.docx

在PL/SQL中，可以用常量和变量存储值，在程序运行过程中，变量的值可以改变，常量的值不能改变。可以在任何PL/SQL语句块，子过程，包等的声明部分去声明一个常量或者变量。

2020-07-30

ER-图知识点归纳.docx

E-R图即实体-联系图(Entity Relationship Diagram)，是指提供了表示实体型、属性和联系的方法，用来描述现实世界的概念模型。E-R方法:是“实体-联系方法”（Entity-Relationship Approach）的简称。它是描述现实世界概念结构模型的有效方法。

2020-07-30

Apache Kafka的流式SQL引擎——ksql.docx

KSQL 引擎——一个基于流的 SQL。推出 KSQL 是为了降低流式处理的门槛，为处理 Kafka 数据提供简单而完整的可交互式 SQL 接口。KSQL 目前可以支持多种流式操作，包括聚合（aggregate）、连接（join）、时间窗口（window）、会话（session），等等。

2020-07-30

Redis指南.docx

Redis是一个开源的高性能键值对数据库。它通过提供多种键值数据类型来适应不同场景下的存储需求，并借助许多高层级的接口使其可以胜任如缓存、队列系统等不同的角色。本章将分别介绍Redis的历史和特性，以使读者能够快速地对Redis有一个全面的了解。

2020-07-30

kudu1.6RPM安装包.rar

kudu离线RPM安装包，包括kudu-tserver-1.6.0、kudu-master-1.6.0、kudu-debuginfo-1.6.0、kudu-client-devel-1.6.0、kudu-client0-1.6.0、kudu-1.6.0

2020-06-19

Nifi安装&案例实践.docx

简单地说，NiFi是为了自动化系统之间的数据流而构建的。NiFi的基本设计概念与基本流程的编程[FBP]的主要思想密切相关。

2020-04-28

什么是一致性.docx

Client：系统外部角色，请求发起者。像民众。（不参与投票） Propser：接受client请求，向集群提出提议（propose）。并在冲突发生时，起到冲突调节的作用。像议员，替民众提出议案。 Acceptor（voter）：提议投票和接收者，只有在形成法定人数（quorum，一般即为majority多数派）时，提议才会最终被接受。像国会。 Learner：提议接受者，backup，备份，对集群一致性没什么影响。像记录员。（不参与投票）

2020-04-08

关于#测试#的问题，如何解决？

2023-06-15

如何使用kettle，程式创建临时表，里面的内容是创建表？

2023-06-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人