- 博客(25)
- 收藏
- 关注
原创 MySQL-binlog日志(日志管理&案例:使用binlog日志进行数据恢复)
Binlog概念Binlog其实是(binary log)MySQL的二进制日志,以二进制的形式记录了对于数据库的变更操作,不包括select和show操作。用来查看MySQL变更 MySQL的备份恢复 MySQL的主从复制文件位置Binlog默认放置在数据目录下Binlog的命名方式mysql-bin.000001binlog文件的生成方式MySQL启动的时候会产生binlog MySQL服务器在执行flush logs;可以产生新的binlog文件关于binlog的
2020-05-30 21:10:36 9657
原创 CDH6.3.1安装
CDH6.3.1安装遇到很多问题,我想主要是由于条件有限,毕竟自己的电脑内存不如专业集群的内存大(如果是内存和硬盘充足,有些是可以避免的,甚至不会出现报错的情况),这里就介绍一下我用VMware安装的虚机中搭建CDH集群的辛酸历程。为了避免多次、重复安装不成功,所以需要具备以下条件:1. 内存要足够大我的电脑内存是8G:使用虚拟机安装Cloudare server:4GCloudare agent:分别为1G电脑最后很卡,而且内存98%。官方推荐最小内存为10G,所以最好还是听从官方的建...
2020-05-28 17:16:46 5891 4
原创 9 DataNodes are required for the erasure coding policies: RS-6-3-1024k
刚装的CDH6.2.1版本的集群172.30.81.203 manager172.30.81.204 node1172.30.81.205 node2172.30.81.206 node3存在隐患:9 DataNodes are required for the erasure coding policies: RS-6-3-1024k.The number of DataNodes is only 3.解决方案使用RS-6-3-1024k编码纠删码策略至少需要9个DataNode
2020-05-26 14:50:22 9056 6
原创 kettle在Linux上的安装、案例,调优
2.4 Linux下安装使用2.4.1 单机1)jdk安装2)安装包上传到服务器,解压注意:1. 把mysql驱动拷贝到lib目录下 2. 将本地用户家目录下的隐藏目录C:\Users\自己用户名\.kettle,整个上传到linux的家目录/home/atguigu/下3)运行数据库资源库中的转换:[atguigu@hadoop102 data-integration]$./pan.sh -rep=my_repo -user=admin -pass=admin ...
2020-05-24 14:56:12 3187 1
原创 kettle在windows上安装与实践案例
第1章 kettle概述1.1 什么是kettleKettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。1.2 Kettle核心知识点1.2.1 Kettle工程存储方式1) 以XML形式存储2) 以资源库方式存储(数据库资源库和文件资源库)1.2.2 Kettle的两种设计简述:Transformation(转换):完成针对数据的基础转换。 Job(作业):完成整个工作流的控制。...
2020-05-24 00:12:28 2943
原创 MapReduce经典4幅图(数据流向图、word count过程图、shuffle工作流程图(map端、reduce端)、MapReduce原理图)
MapReduce经典4幅示意图第一幅示意图:数据流向图数据流首先进行了分片(与HDFS的分块大小一致),然后每个分片会分配给一个map进行处理,之后针对reduce的数量产生对应的输出分片,这里原先的分片顺序会打乱,类似于洗牌,之后分别交给reduce处理后输出结果。第二幅示意图:word count过程图将input的文件拆分成splits,由于测试用的文件较小,所以每个文件作为一个split,并将文件按行分割。这一步由mapreduce框架自动完成。 将分割好的文件交给用户定
2020-05-20 17:08:06 6176
原创 Kafka安装与验证
把kafka_2.11-0.10.1.0.tgz上传到/usr/hadoop目录下:命令:rz解压:tar -zxvfkafka_2.11-0.10.1.0.tgz配置环境变量 /etc/profile使环境变量生效source /etc/profilecpserver.propertiesserver1.propertiescpserver.propertiesserver2.properties修改/kafka_2.11-0.10.1.0/config下的serve...
2020-05-20 12:52:45 2596 2
原创 Hive之系统内置函数&自定义函数(UDF、UDAF、UDTF)介绍和案例(附带完整代码)、IDEA运行Hive
1.1 系统内置函数1.查看系统自带的函数hive (default)> show functions;2.显示自带的函数的用法hive (default)> desc function upper;3.详细显示自带的函数的用法hive (default)> desc function extended upper;1.2 自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限(大概二、三百个),自己可以通过自定义 UDF来方便的
2020-05-13 12:31:34 4458
原创 Hive之查询JOIN、排序(order by、sort by、distribute by、cluster by)、分桶&分桶抽样查询、窗口函数及案例
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only availablestarting with Hive 0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_re
2020-05-11 18:51:36 2064
原创 Linux命令-查看CPU型号,内存大小,硬盘空间
1 查看CPU1.1 查看CPU个数# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l4**uniq命令:删除重复行;wc –l命令:统计行数**1.2 查看CPU核数# cat /proc/cpuinfo | grep "cpu cores" | uniqcpu cores : 41.3 查看CPU型号# cat /proc/cpuinfo | grep 'model name' |uniqmode.
2020-05-26 18:29:43 4493 1
原创 linux命令-查看磁盘,文件夹大小
一、df命令语法df [选项] [文件名]参数:-a:--all,显示所有的文件系统,包括虚拟文件系统,参考示例2。-B:--block-size,指定单位大小。比如1k,1m等,参考示例3。-h:--human-readable,以人们易读的GB、MB、KB等格式显示,参考示例4。-H:--si,和-h参数一样,但是不是以1024,而是1000,即1k=1000,而不是1k=1024。-i:--inodes,不用硬盘容量,而是以inode的数量来显示,参考示例5。-k:以KB的容量显示各文
2020-05-26 13:40:52 6578 2
原创 Hadoop Shell命令速查表
HDFS命令有两种风格 : hadoop fs开头的 hdfs dfs开头的两种命令均可使用,效果相同 命令 使用方法 作用 ls hadoop fs -ls 如果是文件,则按照如下格式返回文件信息:文件名 <副本 数>文件大小 修改日期 修改时间 权限 用户ID 组ID ,如果是 目录,则返回它直接子文件的一个列表,就像在Unix中一样 ....
2020-05-20 16:04:15 846
原创 HDFS原理(超详解)
简介 HDFS(Hadoop Distributed File System )Hadoop 分布式文件系统。是根据 google 发 表的论文翻版的。论文为 GFS(Google File System)Google 文件系统。HDFS 有很多特点:① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存 3 份。② 运行在廉价的机器上。③ 适合大数据的处理。多大?多小?HDFS 默认会将文件分割成 block,64M 为 1 个 block。然后将block按键值对存储在HD
2020-05-20 15:45:24 5359 1
原创 Hadoop简介(HDFS、MR、HDFS读写文件详解)
Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成;HDFS:NN Federation、HAMapReduce:运行在YARN上的MRYARN:资源管理系统Hadoop核心Hadoop的核心就是HDFS(Hadoop Distributed File System,Hadoop分布式文件系统 )和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapRedu.
2020-05-20 14:13:57 2036
原创 Kafka最全介绍
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建背景Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(Activity Strea
2020-05-20 13:10:26 1752 2
原创 sqoop安装与验证
解压将sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz拷贝到linux下,然后解压tar –zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz然后进入新生成的目录cd sqoop-1.4.6.bin__hadoop-2.0.4-alphacd /confcp sqoop-env-template.sh sqoop-env.sh修改sqoop-env.sh(下面的目录换成你自己的安装目录) #
2020-05-15 17:46:16 1846
原创 HBase安装与验证
在某一台上解压hbase的压缩文件,如在192.168.102.128tar –zxvf hbase-1.2.0-bin.tar.gz配置添加环境变量:#hbaseexport HBASE_HOME=/usr/tools/hbase-1.2.0export PATH=$PATH:$HBASE_HOME/bin使环境变量生效source /etc/profile进入hbase的conf目录,需要修改三个文件:hbase-env.sh、hbase-site.xm...
2020-05-15 17:38:30 2150
原创 zookeeper安装与验证
三台服务器:192.168.102.128 node4192.168.102.129 node5192.168.102.130 node6在每台服务器的host中添加:192.168.102.128 node4192.168.102.129 node5192.168.102.130 node6随便在某一台上如:192.168.102.128解压zookeeper压缩文件:tar –zxvf zookeeper-3.4.8.tar.gz配置环境变量:#zo.
2020-05-15 17:36:48 2129
原创 Hive之20个常用函数
1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:2. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:3. 字符串连接函数:concat语法: concat(string A, string B…)返回值: string说明:返回输入字符串连接后的结果,支持任意个输入字符串举例......
2020-05-15 14:55:16 1724
原创 慎用kill -9命令!!!
Kill -9 命令慎用我们都知道,想要 在Linux中终止一个进程有两种方式,如果是前台进程可以使用Ctrl+C键进行终止;如果是后台进程,那么需要使用kill命令来终止。 (其实Ctrl+C也是kill命令)kill命令的格式是:kill[参数][进程号]如:kill 21121kill -9 21121其中[参数]是可选的,进程号可以通过jps/ps/pidof/pstree/top等工具获取。kill的命令参数有以下几种:-l 信号,若果不加信号的编号参数,则使用
2020-05-15 12:50:36 11927 2
原创 Hive之企业优化
1.1 Fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查
2020-05-14 16:29:41 272
原创 Hive之DML数据操作(重点)
1.1 数据导入1.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/data/student.txt' [overwrite] into table student[partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表(复制);否则从 HDFS 加载数据到 hive 表(移动)(3)inpath:表示加载数据的路
2020-05-09 17:40:00 244
原创 Hive之DDL数据定义(重点)
一、创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)hive (default)> create database db_hive;FAILED: Execution Error, return code 1 from org.apac
2020-05-09 14:34:44 1071
原创 Hive数据类型&类型转换
1. 基本数据类型 Hive数据类型 Java 数据类型 长度 例子 TINYINT byte 1byte 有符号整数 20 SMALINT short 2byte 有符号整...
2020-05-08 14:34:46 7834
原创 Hive常用交互命令&属性配置
一、Hive常用交互命令1. 使用hive –help命令查看有哪些交互命令 which: no hbase in (/usr/java/jdk1.8/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/opt/module/hive/apache-hive-2.1.0-bin/bin:/opt/module/hadoop...
2020-05-08 13:38:12 1210
元旦倒计时代码,更改上面的日期,以后年年都可以用
2022-12-14
ubuntu安装.docx
2020-07-30
HPL语法.docx
2020-07-30
Inceptor SQL语法.docx
2020-07-30
ER-图知识点归纳.docx
2020-07-30
Apache Kafka的流式SQL引擎——ksql.docx
2020-07-30
Redis指南.docx
2020-07-30
kudu1.6RPM安装包.rar
2020-06-19
什么是一致性.docx
2020-04-08
关于#测试#的问题,如何解决?
2023-06-15
如何使用kettle,程式创建临时表,里面的内容是创建表?
2023-06-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人