一叶知秋叶若秋-CSDN博客

原创在虚拟机或Docker中搭建大数据伪分布式集群（六）：Flink集群搭建

一、Flink 安装配置启动1、安装上传解压tar -xzf flink-1.13.1-bin-scala_2.12.tgzmv flink-1.13.1-bin-scala_2.12 flink-1.13.1配置环境变量vi /etc/profile # 在文件尾部添加配置export FLINK_HOME=/opt/flink-1.13.1export PATH=$PATH:$FLINK_HOME/bin #退出保存，再使配置生效source /etc/pr..

2021-09-24 17:12:15 430

原创在虚拟机或Docker中搭建大数据伪分布式集群（五）：添加kafka和Sqoop

在虚拟机或Docker中搭建大数据伪分布式集群（五）：添加Sqoop系列文章：在虚拟机或Docker中搭建大数据伪分布式集群系列（一）：hadoop基础功能——hdfs 与 yarn在虚拟机或Docker中搭建大数据伪分布式集群（二）：集群添加zookeeper与HBase在虚拟机或Docker中搭建大数据伪分布式集群（三）：添加Hive在虚拟机或Docker中搭建大数据伪分布式集群（四）：添加 Spark接下来搭建 sqoop，选择版本 sqoop1.4.7（可兼容hadoop2.

2021-01-24 21:41:07 455

转载 Spark On YARN启动流程源码分析（一）

参考原文地址：https://www.cnblogs.com/yy3b2007com/p/10934090.html该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析。spark源码对应的spark版本为2.12一、spark-submit的入口函数一般提交一个spark作业的方式采用spark-submit来提交# Run on a Spark standalone cluster./bin/spark-submit \ --class or

2021-01-17 10:13:23 347

原创在虚拟机或Docker中搭建大数据伪分布式集群（四）：添加 Spark

在虚拟机或Docker中搭建大数据伪分布式集群（四）：添加 Spark系列文章：在虚拟机或Docker中搭建大数据伪分布式集群系列（一）：hadoop基础功能——hdfs 与 yarn在虚拟机或Docker中搭建大数据伪分布式集群（二）：集群添加zookeeper与HBase在虚拟机或Docker中搭建大数据伪分布式集群（三）：添加Hive接下来搭建Spark...

2021-01-17 10:11:39 479 1

原创 Spark3.0新特性：SQL相关

目录一、动态分区修剪（Dynamic Partition Pruning）二、自适应查询执行（Adaptive Query Execution）三、映射下推(Project PushDown)四、谓词下推(Predicate PushDown)一、动态分区修剪（Dynamic Partition Pruning）静态分区裁剪优化过滤提前，减少无效数据读写，尤其在 join 时，效果很明显对比一下 Spark 2.X...

2021-01-06 17:22:26 361

转载 Spark的五种JOIN策略解析

Spark的五种JOIN策略解析转载：https://www.cnblogs.com/jmx-bigdata/p/14021183.htmlJOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spark是如何选择JOIN策略的影响JOIN操作的因素数据集的大小参与JOIN的数据集

2021-01-06 16:11:00 526

转载 SparkSQL的3种Join实现

SparkSQL的3种Join实现转载：https://www.cnblogs.com/JP6907/p/10721436.html引言Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现，每种Join对应着不同的应用场景：Broadcast Hash Join ：适合一张较小的表和一张大表进行join Shuffle Hash Joi

2021-01-06 16:09:22 146

原创 k8s本地环境搭建

k8s本地环境搭建提前安装docker，学习使用绝大部分的场景使用的是docker驱动，而且k8s学习与docker相一致。不要使用Docker Desktop for Mac/Windows 中的 K8s，其安装配置在国内（因为网络问题）是一个天坑，浪费时间生命，还会搞的docker下一堆镜像和容器，影响docker本身的使用。k8s中文文档：http://docs.kubernetes.org.cn/官方文档：https://kubernetes.io/docs、https://kube

2020-12-08 15:26:37 555 1

原创 HBase学习日志：HBase Shell 命令

TODO：逐个解析COMMAND GROUPS: Group name: general Commands: processlist, status, table_help, version, whoami Group name: ddl Commands: alter, alter_async, alter_status, clone_table_schema, create, describe, disable, disable_all, drop, drop_all, enabl...

2020-11-29 22:36:36 322

原创在虚拟机或Docker中搭建大数据伪分布式集群（三）：添加Hive

在虚拟机或Docker中搭建Hadoop伪分布式集群（三）：添加Hive系列文章：在虚拟机或Docker中搭建Hadoop伪分布式集群系列（一）：hadoop基础功能——hdfs 与 yarn在虚拟机或Docker中搭建Hadoop伪分布式集群（二）：集群添加zookeeper与HBase目录一、Hive 安装与配置1、Hive 安装2、修改配置（1）hive-env.sh文件（2）hive-site.xml 文件3、修改 hadoop 中的 core-site.xm

2020-11-28 21:38:05 563

转载 Zookeeper选举机制

部分转载于：https://blog.csdn.net/caohongshuang/article/details/84653941Zookeeper为了保证各节点的协同工作，在工作时需要一个Leader角色，而Zookeerper默认采用FastLeaderElection算法，且投票数大于半数则胜出的机制。一、相关概念1、Serverid：服务器ID这是在配置集群时设置的myid参数文件，比如有三台服务器，编号分别是1,2,3，分别表示为服务器1、服务器2、服务器3编号越大...

2020-11-24 09:35:00 811

原创个人网站建设日志

阿里云双11买的云服务器ECS（1核 2GiB），一年才七八十块，也买了腾讯云和华为云，先对比试着用一下，确定一下个人需求和使用情况，再决定下一年的购买计划。我的需求不多，只希望搞自己的个人网站，打造一下个人品牌，并同时体验一下云服务相关技术。毕竟技术博客可以在CSDN等网站上写，敏感话题自然更不能写在国内网站，直接放在github上啊。还有，记得购买域名，并备案登记。一、初始化进入阿里云控制台，搜索云服务器ECS，进入概览页面，可以看到自己的云服务器，并按照下面的教程，初始化个人云服.

2020-11-23 20:24:07 304

原创在虚拟机或Docker中搭建大数据伪分布式集群（二）：集群添加zookeeper与HBase/Phoenix

在Docker中搭建Hadoop伪分布式集群二：添加zookeeper与HBase目录在Docker中搭建Hadoop伪分布式集群二：添加zookeeper与HBase一、zookeeper 安装配置1、安装2、修改配置3、启动4、验证二、启动Hadoop三、HBase1、安装2、配置3、启动4、验证一、zookeeper 安装配置1、安装下载并解压，我这边是直接从本机复制到Docker机器中# 格式为：docker cp 本地文件的路

2020-11-22 23:43:58 718

原创 Hadoop Mapreduce 分片、分区、分组、二次排序过程详解

首先需要明确的是，hadoop里的key一定要是可排序的，要么key自身实现了WritableComparator接口，要么有一个排序类可以对key进行排序。如果key本身不实现WritableComparator接口，而是由另外的一个工具类（实现RawComparator接口）来提供排序的话，需要单独设置key的排序类：job.setOutputKeyComparatorClass(XXX.class);在map输出的时候，会进行分片，在片内再对key进行排序。分片的作用是确定分发到哪个reduce；

2020-11-22 14:56:06 1266

转载 Hadoop Federation联邦

原文地址：https://www.cnblogs.com/jifengblog/p/9307702.html背景概述　　单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题，当集群大到一定程度后，NameNode 进程使用的内存可能会达到上百 G，NameNode 成为了性能的瓶颈。因而提出了 namenode 水平扩展方案-- Federation。　　Federation 中文意思为联邦,联盟，是 NameNode 的 Federation,也就是会有多个Nam

2020-11-17 23:10:17 116

原创 Hadoop案例：Reduce join - 用户数据与订单数据

目录一、输入——数据集二、输出（形式同mysql的“join”-二表关联查询）三、思路四、实现Bean类——UserOrderBeanDriver类——UserOrderDriver五、结果一、输入——数据集1、user.txt（用户数据）u001,senge,18,male,angelababyu002,xiaoli,58,male,ruhuau003,shuaishuai,16,female,chungeu004,laoyang,28,female,ze.

2020-11-17 22:15:42 351

转载 Hadoop High Availability高可用

转载原文地址：https://www.cnblogs.com/jifengblog/p/9307324.htmlHDFS HANamenode HA 详解　　　　hadoop2.x 之后，Clouera 提出了QJM/Qurom Journal Manager，这是一个基于 Paxos 算法（分布式一致性算法）实现的 HDFS HA 方案，它给出了一种较好的解决思路和方案,QJM 主要优势如下：　　不需要配置额外的高共享存储，降低了复杂度和维护成本。　　消除 spof(单点故障)。..

2020-11-17 11:40:33 103

转载 HDFS元数据管理机制

转载原文地址：https://www.cnblogs.com/jifengblog/p/9307791.html元数据管理概述　　HDFS元数据，按类型分，主要包括以下几个部分：　　　　1、文件、目录自身的属性信息，例如文件名，目录名，修改信息等。　　　　2、文件记录的信息的存储相关的信息，例如存储块信息，分块情况，副本个数等。　　　　3、记录 HDFS 的 Datanode 的信息，用于 DataNode 的管理。　　按形式分为内存元数据和元数据文件两种，分别存在内存和磁盘上。

2020-11-17 11:29:13 413 1

转载 hadoop——hdfs上传和下载文件的流程

转载：https://blog.csdn.net/qq_39047789/article/details/103939594一、上传文件1、客户端上传文件客户端向namenode发送数据上传的请求（包含数据的长度信息）hadoop fd -put / / （以上传200M文件为例）2.namenode检查工作namenode收到客户端请求之后会进行一系列的检查工作查重处理，如果重复则报错验证上传文件的目标目录是否存在，不存在报错检查权限 ...3.返回检查信息到...

2020-11-16 09:51:37 1776

原创 Hadoop-hdfs dfs常用命令的使用

命令列表：hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] 追加写 [-cat [-ignoreCrc] <src> ...] 查看 [-checksum [-v] <src> ...] 校验和（数据完整性校验） [-chgrp [-R] GROUP PATH...] ...

2020-11-14 23:40:25 1805

原创在虚拟机或Docker中搭建大数据伪分布式集群（一）：hadoop基础功能——hdfs 与 yarn

环境操作系统： CentOS 864位 - CentOS Linux release 8.1.1911 (Core)拉去Centos镜像docker pull centos:latest使用docker images查看下载的镜像创建容器按照集群的架构，创建容器时需要设置固定IP，所以先要在docker使用如下命令创建固定IP的子网network create --subnet=172.19.0.0/16 hadoop-groupdocker的子网创建...

2020-11-13 23:59:03 1217 1

转载 Java对象的序列化与反序列化

Java对象的序列化与反序列化原文链接：https://mp.weixin.qq.com/s?__biz=MzI3NzE0NjcwMg==&mid=2650120836&idx=1&sn=c83a980c0871faf607ae613092c69760&chksm=f36bbfa5c41c36b317c103f27b9d99c26aecba52e4bf614bd73dcadc1e4bc5ab8f99fb082eba&scene=21#wechat_redirect

2020-11-13 21:24:48 162

原创前端React（antd pro框架）实现列表表头点击复制功能

一、先实现复制功能起初是使用浏览器提供了 copy 命令。document.execCommand("copy")如果是输入框，可以通过select()方法，选中输入框的文本，然后调用 copy 命令，将文本复制到剪切板。但是 select() 方法只对 <input> 和 <textarea> 有效，对于 <p> 就不好用了functioncopyUrl() {$("#copyinput").select();// 选择对象...

2020-06-02 17:40:13 3349

转载 Hexo博客yilia使用Gitalk作评论插件

转载天雷：Hexo博客yilia使用Gitalk作评论插件作为一个技术类博客怎能面得了一个评论插件呢。多说挂了，本想跟随yilia的主人Litten使用畅言，无奈这厮居然要备案(这种一看就很麻烦的对我这种懒人，pass)。然后我就找了一个国人自制开源的插件:gitalk，挺小众我喜欢。网上没有找到yilia搭载该插件的相关教程，索性写一个，仅希望各位同仁少走弯路。正文概述本文主...

2020-02-05 19:48:26 1028 3

原创 Python：mitmproxy获取HTTP请求URL

import mitmproxy.httpimport logging,syslogging.basicConfig(filename=sys.path[0]+'/'+__name__+'.log',format='[%(asctime)s-%(filename)s-%(levelname)s:%(message)s]', level=logging.INFO,filemode='a',d...

2019-11-04 17:09:55 2491

原创 ExcelUtils类

import cn.afterturn.easypoi.excel.ExcelExportUtil;import cn.afterturn.easypoi.excel.ExcelImportUtil;import cn.afterturn.easypoi.excel.entity.ExportParams;import cn.afterturn.easypoi.excel.entity.I...

2019-11-04 16:55:24 554

原创 Java BaseMapper示例

import org.apache.ibatis.annotations.Param;import java.util.List;/** * 类BaseMapper的描述: 基础的mapper类 * * @author gaojian.penggj 2018/3/15 下午2:31 */public interface BaseMapper<DOExample, DO&g...

2019-11-04 16:53:28 1996

原创 Java BaseExample示例

package com.hermesfuxi.crm.dao.model;import java.util.ArrayList;import java.util.List;public class BaseExample { protected String orderByClause; protected boolean distinct; pro...

2019-11-04 16:46:26 512

原创 React-AntD常见问题

目录一、antd getFieldDecorator使用rules不起作用（一）问题描述（二）解决问题二、监听页面宽度动态1.在componentDidMount()中加入监听器2.在constructor中绑定resize()3.在componentWillUnmount()中移除监听器三、联动下拉框清空问题四、一个页面调用的多个相同组件，导致props...

2019-11-04 16:31:21 1226

原创 IntelliJ IDEA 常用插件

JRebel for IntelliJ：热部署插件，只要不是修改了项目的配置文件，都可以实现热部署，control+F9/command+F9http://139.199.89.239:1008/67ea78bb-3eb0-49b7-9ab6-5a76aa26bd08Mybatis：Free Mybatis plugin 与 mybatis-generatoMyBatis Log P...

2019-11-04 16:01:56 114

转载前端Warning解决：多行文本省略号样式失效丢失，以及控制台显示 autoprefixer 警告

前端报错：多行文本省略号样式失效丢失，以及控制台显示 autoprefixer 警告Autoprefixer applies control comment to whole block, not to next rules问题描述：文本多行显示省略号的关键css语句-webkit-box-orient: vertical;莫名其妙丢失失效了。查阅资料，有不少人提出在改样式...

2019-08-27 10:51:44 969

转载前端React：antd Table组件去除key、rowKey相关的Warning

感谢鹊湖居士（https://www.linjiaqun.com/js/329.html），成功解决了问题，记录学习了，现转载如下：React项目中总是存在Key相关的warning，这个不能忍！！！目前遇到的warning有以下几个：⑴设置了rowKey属性，但所指定字段的值不是唯一的Warning: Each child in an array or iterator sh...

2019-08-06 19:53:09 9741

原创前端全局存储JavaScript：Cookie、 LocalStorage 与 SessionStorage

特性 Cookie localStorage sessionStorage 数据的生命期一般由服务器生成，可设置失效时间。如果在浏览器端生成Cookie，默认是关闭浏览器后失效除非被清除，否则永久保存仅在当前会话下有效，关闭页面或浏览器后被清除存放数据大小 4K左右一般为5MB 与服务器端通信每次都会携带在HTTP头中，...

2019-08-06 14:34:43 1052

原创 Spring @Aspect 全注解的AOP测试问题

感谢https://blog.csdn.net/god_is_gril/article/details/53168247?utm_source=blogxgwz3，成功解决问题遇到问题如下：测试切面方法,没有任何错误提示，绿色通过，但始终前置通知和后置通知的打印没起效果，idea显示方法关联到切面了，dubug却并没有走切面。分析：1、@Aspect注解标示的类没有起作用,，检查前...

2018-10-17 13:01:07 651

原创完全卸载GitLab

一、停止gitlab sudo gitlab-ctl stop二、卸载gitlabsudo rpm -e gitlab-ce三、查看gitlab进程ps -ef | grep gitlab四、再杀掉第一个守护进程（写自己的进程ID），再查看进程kill -9 4549五、删除gitlab文件 find / -name gitlab|xargs r...

2018-10-16 21:41:10 160

tangguoxing000的博客