2020年03月_威尼斯的星期天

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

转载 Linux中vim里输出^A等方法

参考链接参考链接在VIM中可以通过二合字符和十进制进行输入，在输入模式中，Ctrl + V, 十进制输入^A的方法是ctrl+v ctrl+a在输入模式中，Ctrl + K, 二合字符（区分大小写）注意:特殊字符也算一个字节通过用的^@是为了保证结尾没有其他控制字符，比如\n:h digraph-tablechar digraph hex dec offi...

2020-03-30 00:11:55 3744

原创 Linux集群time同步方案

前言下面针对调试环境和生产环境两个方面来解决集群同步问题生产环境集群时间同步生产环境要保证服务器时间与外网时间服务器时间保持同步，但是一旦出现断网，需要集群内部按照一个机器的时间进行同步，下面简单的说下思路。确定服务器上是否有ntp服务。检查及安装方法！配置ntp服务，选择一个能连外网的机器作为时间同步主服务器！将ntp服务设置为开机自动启动服务！配置允许网段及集群不从interne...

2020-03-29 11:49:03 429

原创 Linux默认字符集与Java程序默认字符集问题

查看方式cat /etc/sysconfig/i18nJava程序默认字符集默认字符集是zh_CN.GB3212处理JAVA程序在linux中运行乱码问题两种解决思路1.修改linux里字符集sudo vim /etc/profileexport LC_ALL="zh_CN.GB2312"export LANG="zh_CN.GB2312"修改Java ...

2020-03-27 23:13:41 1010

原创 Linux中编译hadoop-lzo使hadoop能够支持lzo（maven编译）

Hadoop支持LZO环境准备 maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像） gcc-c++ zlib-devel autoconf automake libtool通过yum安装即可，yum -y install gcc-c++ lzo-devel zlib-devel autoconfautomake libtool注意 maven的配置...

2020-03-27 21:54:53 1360 1

原创 FastJsonAPI运用

实体类package com.zhengkw.dw.bean;/** * @ClassName:Person * @author: zhengkw * @description: * @date: 20/03/26下午 9:30 * @version:1.0 * @since: jdk 1.8 */public class Person { private Integ...

2020-03-27 01:10:11 169

原创 kafka中关于HW,LEO，offset之间的关系

前言下面叙述的概念我曾去官网查询无果，于是查询了大量的技术帖子进行汇总。这个结论是目前普遍接受的解释！参考贴链接offset官方的解释是每个一个offset就是一个消息！这里面会发现offset不连续，其实是进行了压缩，例如79到86.如果指定offset来消费消息，那么从79到86指定是等价的！这里就不展开说了，有兴趣自己查阅文档！HWHW我在官方文档里没有查到其定义，但是看了很...

2020-03-26 15:35:32 1171

原创 Hadoop源码编译支持Snappy压缩（Linux环境下联网利用Maven编译）

前言hadoop的类库中是不带有snappy的，但是考虑到snappy的优点（压缩速度较快，压缩比率较好，虽然不支持切片，但是满足在mr中的shuffle阶段和输出结果压缩！）后面我会再整理下hadoop常用压缩格式，以及各自的优劣点！资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的，以为需要用到Yum来进行安装！Yum安装...

2020-03-26 13:55:22 413 3

原创 azkaban的复杂场景使用以及使用时发现的一些坑！

前言完成一个复杂的azkaban使用案例，结构图如下任务描述job1：使用az框架传参，打印任务准备开始！job2：依赖于job1，在本地创建一个目录名字叫做inputwc！job3：依赖于job2，利用hive查询结果并输出到指定目录下的指定文件里job4：依赖于job2，调用自定义java程序生成一个文件，内容是职业名称并用制表符隔开！job5：依赖于job3，job4，将j...

2020-03-19 22:55:54 1089

原创在高可用集群中再搭建HBase集群时master日志报错zookeeper.MetaTableLocator: Failed verification of hbase:meta

前言造成原因是由于zookeeper中的hbase中的meta数据丢失或不全造成的，这里提供一个搭建初期时的解决方案。生产时解决方案待定！解决思路先关闭Hbase的相关服务在hdfs上删除Hbase目录关闭hdfs和yarn服务关闭zkzk中删除zkdata中（在zoo.cfg中配置的dir）的数据保留myid删除hbase里logs中的所有数据群起zk格式化 zkfc群...

2020-03-18 19:10:10 255

前言Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value对的方式，通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。环境准备由于都是在java虚拟机上运行的java...

2020-03-17 23:37:59 1245

原创 kafka官方server-stop脚本无法生效的解决办法

前言综合2个帖子在这里插入代码片帖子1帖子2得到结果！修改kafka-server-stop.sh此时可以把PIDS=$(ps ax | grep -i ‘kafka.Kafka’ | grep java | grep -v grep| awk ‘{print $1}’)这行代码修改为PIDS=$(jps -lm | grep -i 'kafka.Kafka' | awk '{pri...

2020-03-17 00:17:58 831

原创 Hadoop节点动态新增和退役&Datanode多目录

前言随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。动态新增节点环境准备（1）在hadoop104主机上再克隆一台hadoop105主机（2）修改IP地址和主机名称（3）删除原来HDFS文件系统留存的文件（/opt/module/hadoop-2.7.2/data和log）（4）source一下配置文件...

2020-03-15 22:14:17 432

原创 flume自定义组件（source，Interceptor，sink）

Source原理每次Agent启动后，会调用PollableSourceRunner.start()，开启一个PollableSourceRunner线程！这个线程会初始化PollableSource(可以轮询地去读取数据源中的数据)对象！ PollableSource由所在的PollingRunner线程控制，调用PollableSource的process()方法，来探测是否有新的...

2020-03-14 01:06:26 366

原创手写MR之GroupComparator（Java）

Beanpackage com.zhengkw.groupingcomparator;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * @ClassName:Order...

2020-03-11 20:39:05 89

原创 Hive自定义UDF函数

自定义UDF函数创建一个Maven工程Hive导入依赖<dependencies>  <dependency> <groupId>org.apache.hive</groupId>...

2020-03-11 01:36:56 327

原创手写MapReduce之combiner

数据源准备4个txt文件，内容不限制，我用的是英文单词，用空格进行分割！Mapperpackage com.zhengkw.combiner;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import ...

2020-03-08 20:42:06 198

原创手写MapReduce之实现WritableComparable<T>进行TopN排序（Java）

前言直通车之前写了一个全排序，使用的是RawComparator来实现！这次则使用WritableComparable实现！数据源 tel up down total13470253144 180 180 36013509468723 7335 110349 11768413560439638 918 4938 585613568436656 3597 25635 29...

2020-03-08 20:09:23 470

原创手写MapReduce之Partitioner分区（Java）

前言通过继承Partitioner<MapKEYOUT,MapVALUEOUT >实现对数据的输出的结果文件数量划分！测试数据1 13736230513 192.196.100.1 www.zhengkw.com 2481 24681 2002 13846544121 192.196.100.2 264 0 2003 13956435636 192.196.100.3...

2020-03-08 19:53:45 359

原创手写MapReduce系列之RawComparator<T>接口实现进行数据全排序

前言这个系列是对MR手写程序的整理，为了加深对MR的理解！数据源手机号上行下行总计13470253144 180 180 36013509468723 7335 110349 11768413560439638 918 4938 585613568436656 3597 25635 2923213590439668 1116 954 207013...

2020-03-08 17:25:31 245

原创利用API来对HDFS操作（Java）

package com.zhengkw.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.junit.After;import org.junit.Before;import org.junit.Test;import java.io.File;imp...

2020-03-08 16:55:46 179

原创低版本Hive配置详情

前言已经搭建起来一个Hadoop-HA集群，上面也搭建了Hive以及MySQL搭建方法直通车！点我！！。既然万事俱备，那么开始认识下Hive框架吧！从wordcount认识hive前面手写过很多MR程序，也对MR有一定的认识。hive框架是将每一句HQL转换成为一个MR程序！虽然提供的模板不能完全的覆盖所有生产环境，但是框架的强大依然让它非常流行。下面以简单的wordcount程序来认识下h...

2020-03-06 23:24:15 296

原创手写一个简单的MR程序，并在集群中运行！！（wordcount）

前言实现一个手写的WC程序，并打包在集群上运行。创建一个Maven工程，导入pom工程目录导入pom<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XM...

2020-03-05 16:53:19 769

原创基于HDFS-HA搭建一个Yarn-HA

前言之前搭建好了一个HDFS的高可用，基于他点我！！！再搭建起Yarn的高可用!常用脚本直通车点我！！修改配置并且分发yarn-site.xml```powershell<?xml version="1.0"?><!-- Licensed under the Apache License, Version 2.0 (the "License"); you...

2020-03-05 16:35:27 820

原创利用HadoopAPI实现对文件的压缩

package com.zhengkw.compression;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.f...

2020-03-05 11:59:04 286

原创安装MySQL，替换Hive中的derby

前言Hive搭建好了，发现自带derby无法满足生产需求，所以需要重新指定一个关系型数据库，作为存放元数据的库！安装前准备上传rpm安装包到指定目录下笔者是放到了/opt/software目录中。检查linux是否已经安装了MySQLrpm -qa | grep mysqlrpm -qa | grep MySQL有查询出则删除，我查询到的mysql如下：mysql-libs-...

2020-03-05 11:32:25 348

原创搭建一个Hadoop集群 HDFS-HA （Zookeeper自动故障转移）

前言之前已经搭建过一个hadoop集群(搭建方法),在这个集群的基础上进行改进，引用Zookeeper来进行自动故障转移！搭建目标HA简介所谓HA（High Available），即高可用（7*24小时不中断服务）。 Hadoop集群有HDFS和YARN！Hadoop的HA指HDFS和YARN必须保证可用性强(不能轻易故障，保持24h可用)！以HDFS为例：必...

2020-03-05 01:00:33 2736 1

原创 hive搭建（hadoopHA集群上）

前言目前在整理hadoopHA搭建素材，整理好后贴上链接！简介What is Hive!Hive是一种数据仓库软件，使用SQL来促进对分布式设备上存储的大体量的数据集进行读，写和管理！ SQL(结构化查询语言)，使用SQL的前提是需要有一张表！ Hive分析数据必须可以映射为一个表结构！ Hive提供了JDBC驱动和命令行工具，让用户连接Hive! Hive基于H...

2020-03-04 23:01:16 1891 5

原创 hadoop集群中常用shell脚本收集

前言感谢我关注的朋友，我亦无他，收集整理的大部分脚本。群发脚本XShell#!/bin/bash#1 获取参数，如果不够直接退出pcount=$#if ((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdi...

2020-03-04 20:39:29 728

原创 Hadoop在Bean对象不实现WritableComparable接口的情况下用自定义bean作为Mapper KEYOUT TopN全排序（RawComparator实现）

Beanpackage com.zhengkw.rawcomparabletest;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.file.tfile.RawComparable;import java.io.DataInput;import java.io.DataOutput;import ja...

2020-03-03 01:00:09 271

dbeaver-ce-7.1.0-x86_64-setup.rar

免费的第三方可视化工具，但是很难下载，为了方便大家使用，给大家提供目前最新的版本windows 64x的！！！儿童节快乐

2020-06-01

Git-2.26.2-64-bit-32bit.rar

最新的git版本控制工具。里面有32位和64位的供用户使用！！ Git-2.26.2-64-bit

2020-05-26

typora-setup-x64-0.9.86.rar

最新版本为 0.9.89，当前版本为 0.9.86，该版本算较新稳定版本。众所周知，typora是一款比较好用的md编辑软件。其实本质上是一个浏览器。所以只要会css的语法就能玩出花样来！喜欢记笔记的小伙伴可以自行下载，方便学习管理自己的资料！牛B的操作可以去各大视频平台去搜索。精彩多多哦