- 博客(35)
- 资源 (4)
- 收藏
- 关注
原创 在虚拟机或Docker中搭建大数据伪分布式集群(六):Flink集群搭建
一、Flink 安装配置启动1、安装上传解压tar -xzf flink-1.13.1-bin-scala_2.12.tgzmv flink-1.13.1-bin-scala_2.12 flink-1.13.1配置环境变量vi /etc/profile # 在文件尾部添加配置export FLINK_HOME=/opt/flink-1.13.1export PATH=$PATH:$FLINK_HOME/bin #退出保存,再使配置生效source /etc/pr..
2021-09-24 17:12:15 429
原创 在虚拟机或Docker中搭建大数据伪分布式集群(五):添加kafka和Sqoop
在虚拟机或Docker中搭建大数据伪分布式集群(五):添加Sqoop系列文章:在虚拟机或Docker中搭建大数据伪分布式集群系列(一):hadoop基础功能——hdfs 与 yarn在虚拟机或Docker中搭建大数据伪分布式集群(二):集群添加zookeeper与HBase在虚拟机或Docker中搭建大数据伪分布式集群(三):添加Hive在虚拟机或Docker中搭建大数据伪分布式集群(四):添加 Spark接下来搭建 sqoop,选择版本 sqoop1.4.7(可兼容hadoop2.
2021-01-24 21:41:07 455
转载 Spark On YARN启动流程源码分析(一)
参考原文地址:https://www.cnblogs.com/yy3b2007com/p/10934090.html该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析。spark源码对应的spark版本为2.12一、spark-submit的入口函数一般提交一个spark作业的方式采用spark-submit来提交# Run on a Spark standalone cluster./bin/spark-submit \ --class or
2021-01-17 10:13:23 347
原创 在虚拟机或Docker中搭建大数据伪分布式集群(四):添加 Spark
在虚拟机或Docker中搭建大数据伪分布式集群(四):添加 Spark系列文章:在虚拟机或Docker中搭建大数据伪分布式集群系列(一):hadoop基础功能——hdfs 与 yarn在虚拟机或Docker中搭建大数据伪分布式集群(二):集群添加zookeeper与HBase在虚拟机或Docker中搭建大数据伪分布式集群(三):添加Hive接下来搭建Spark...
2021-01-17 10:11:39 479 1
原创 Spark3.0新特性:SQL相关
目录一、动态分区修剪(Dynamic Partition Pruning)二、自适应查询执行(Adaptive Query Execution)三、映射下推(Project PushDown)四、谓词下推(Predicate PushDown)一、动态分区修剪(Dynamic Partition Pruning)静态分区裁剪优化过滤提前,减少无效数据读写,尤其在 join 时,效果很明显 对比一下 Spark 2.X...
2021-01-06 17:22:26 361
转载 Spark的五种JOIN策略解析
Spark的五种JOIN策略解析转载:https://www.cnblogs.com/jmx-bigdata/p/14021183.htmlJOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容:影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spark是如何选择JOIN策略的影响JOIN操作的因素数据集的大小参与JOIN的数据集
2021-01-06 16:11:00 525
转载 SparkSQL的3种Join实现
SparkSQL的3种Join实现转载:https://www.cnblogs.com/JP6907/p/10721436.html引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:Broadcast Hash Join : 适合一张较小的表和一张大表进行join Shuffle Hash Joi
2021-01-06 16:09:22 146
原创 k8s本地环境搭建
k8s本地环境搭建提前安装docker,学习使用绝大部分的场景使用的是docker驱动,而且k8s学习与docker相一致。不要使用Docker Desktop for Mac/Windows 中的 K8s,其安装配置在国内(因为网络问题)是一个天坑,浪费时间生命,还会搞的docker下一堆镜像和容器,影响docker本身的使用。k8s中文文档:http://docs.kubernetes.org.cn/官方文档:https://kubernetes.io/docs、https://kube
2020-12-08 15:26:37 555 1
原创 HBase学习日志:HBase Shell 命令
TODO:逐个解析COMMAND GROUPS: Group name: general Commands: processlist, status, table_help, version, whoami Group name: ddl Commands: alter, alter_async, alter_status, clone_table_schema, create, describe, disable, disable_all, drop, drop_all, enabl...
2020-11-29 22:36:36 322
原创 在虚拟机或Docker中搭建大数据伪分布式集群(三):添加Hive
在虚拟机或Docker中搭建Hadoop伪分布式集群(三):添加Hive系列文章:在虚拟机或Docker中搭建Hadoop伪分布式集群系列(一):hadoop基础功能——hdfs 与 yarn在虚拟机或Docker中搭建Hadoop伪分布式集群(二):集群添加zookeeper与HBase目录一、Hive 安装与配置1、Hive 安装2、修改配置(1)hive-env.sh文件(2)hive-site.xml 文件3、修改 hadoop 中的 core-site.xm
2020-11-28 21:38:05 563
转载 Zookeeper选举机制
部分转载于:https://blog.csdn.net/caohongshuang/article/details/84653941Zookeeper为了保证各节点的协同工作,在工作时需要一个Leader角色,而Zookeerper默认采用FastLeaderElection算法,且投票数大于半数则胜出的机制。一、相关概念1、Serverid:服务器ID这是在配置集群时设置的myid参数文件,比如有三台服务器,编号分别是1,2,3,分别表示为服务器1、服务器2、服务器3编号越大...
2020-11-24 09:35:00 811
原创 个人网站建设日志
阿里云双11买的云服务器ECS(1核 2GiB),一年才七八十块,也买了腾讯云和华为云,先对比试着用一下,确定一下个人需求和使用情况,再决定下一年的购买计划。我的需求不多,只希望搞自己的个人网站,打造一下个人品牌,并同时体验一下云服务相关技术。毕竟技术博客可以在CSDN等网站上写,敏感话题自然更不能写在国内网站,直接放在github上啊。还有,记得购买域名,并备案登记。一、初始化进入阿里云控制台,搜索云服务器ECS,进入概览页面,可以看到自己的云服务器,并按照下面的教程,初始化个人云服.
2020-11-23 20:24:07 304
原创 在虚拟机或Docker中搭建大数据伪分布式集群(二):集群添加zookeeper与HBase/Phoenix
在Docker中搭建Hadoop伪分布式集群二:添加zookeeper与HBase目录在Docker中搭建Hadoop伪分布式集群二:添加zookeeper与HBase一、zookeeper 安装配置1、安装2、修改配置3、启动4、 验证二、启动Hadoop三、HBase1、安装2、配置3、启动4、验证一、zookeeper 安装配置1、安装下载并解压,我这边是直接从本机复制到Docker机器中# 格式为:docker cp 本地文件的路
2020-11-22 23:43:58 717
原创 Hadoop Mapreduce 分片、分区、分组、二次排序过程详解
首先需要明确的是,hadoop里的key一定要是可排序的,要么key自身实现了WritableComparator接口,要么有一个排序类可以对key进行排序。如果key本身不实现WritableComparator接口,而是由另外的一个工具类(实现RawComparator接口)来提供排序的话,需要单独设置key的排序类:job.setOutputKeyComparatorClass(XXX.class);在map输出的时候,会进行分片,在片内再对key进行排序。分片的作用是确定分发到哪个reduce;
2020-11-22 14:56:06 1266
转载 Hadoop Federation联邦
原文地址:https://www.cnblogs.com/jifengblog/p/9307702.html背景概述 单 NameNode 的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题,当集群大到一定程度后,NameNode 进程使用的内存可能会达到上百 G,NameNode 成为了性能的瓶颈。因而提出了 namenode 水平扩展方案-- Federation。 Federation 中文意思为联邦,联盟,是 NameNode 的 Federation,也就是会有多个Nam
2020-11-17 23:10:17 116
原创 Hadoop案例:Reduce join - 用户数据与订单数据
目录一、输入——数据集二、输出(形式同mysql的“join”-二表关联查询)三、思路四、实现Bean类——UserOrderBeanDriver类——UserOrderDriver五、结果一、输入——数据集1、user.txt(用户数据)u001,senge,18,male,angelababyu002,xiaoli,58,male,ruhuau003,shuaishuai,16,female,chungeu004,laoyang,28,female,ze.
2020-11-17 22:15:42 351
转载 Hadoop High Availability高可用
转载原文地址:https://www.cnblogs.com/jifengblog/p/9307324.htmlHDFS HANamenode HA 详解 hadoop2.x 之后,Clouera 提出了QJM/Qurom Journal Manager,这是一个基于 Paxos 算法(分布式一致性算法)实现的 HDFS HA 方案,它给出了一种较好的解决思路和方案,QJM 主要优势如下: 不需要配置额外的高共享存储,降低了复杂度和维护成本。 消除 spof(单点故障)。..
2020-11-17 11:40:33 103
转载 HDFS元数据管理机制
转载原文地址:https://www.cnblogs.com/jifengblog/p/9307791.html元数据管理概述 HDFS元数据,按类型分,主要包括以下几个部分: 1、文件、目录自身的属性信息,例如文件名,目录名,修改信息等。 2、文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等。 3、记录 HDFS 的 Datanode 的信息,用于 DataNode 的管理。 按形式分为内存元数据和元数据文件两种,分别存在内存和磁盘上。
2020-11-17 11:29:13 413 1
转载 hadoop——hdfs上传和下载文件的流程
转载:https://blog.csdn.net/qq_39047789/article/details/103939594一、上传文件1、客户端上传文件客户端向namenode发送数据上传的请求(包含数据的长度信息)hadoop fd -put / / (以上传200M文件为例)2.namenode检查工作namenode收到客户端请求之后会进行一系列的检查工作查重处理,如果重复则报错 验证上传文件的目标目录是否存在,不存在报错 检查权限 ...3.返回检查信息到...
2020-11-16 09:51:37 1776
原创 Hadoop-hdfs dfs常用命令的使用
命令列表:hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] 追加写 [-cat [-ignoreCrc] <src> ...] 查看 [-checksum [-v] <src> ...] 校验和(数据完整性校验) [-chgrp [-R] GROUP PATH...] ...
2020-11-14 23:40:25 1804
原创 在虚拟机或Docker中搭建大数据伪分布式集群(一):hadoop基础功能——hdfs 与 yarn
环境操作系统: CentOS 864位 - CentOS Linux release 8.1.1911 (Core)拉去Centos镜像docker pull centos:latest使用docker images查看下载的镜像创建容器按照集群的架构,创建容器时需要设置固定IP,所以先要在docker使用如下命令创建固定IP的子网network create --subnet=172.19.0.0/16 hadoop-groupdocker的子网创建...
2020-11-13 23:59:03 1216 1
转载 Java对象的序列化与反序列化
Java对象的序列化与反序列化原文链接:https://mp.weixin.qq.com/s?__biz=MzI3NzE0NjcwMg==&mid=2650120836&idx=1&sn=c83a980c0871faf607ae613092c69760&chksm=f36bbfa5c41c36b317c103f27b9d99c26aecba52e4bf614bd73dcadc1e4bc5ab8f99fb082eba&scene=21#wechat_redirect
2020-11-13 21:24:48 162
原创 前端React(antd pro框架)实现列表表头点击复制功能
一、先实现复制功能起初是使用浏览器提供了 copy 命令 。document.execCommand("copy")如果是输入框,可以通过select()方法,选中输入框的文本,然后调用 copy 命令,将文本复制到剪切板。但是 select() 方法只对 <input> 和 <textarea> 有效,对于 <p> 就不好用了functioncopyUrl() {$("#copyinput").select();// 选择对象...
2020-06-02 17:40:13 3349
转载 Hexo博客yilia使用Gitalk作评论插件
转载天雷:Hexo博客yilia使用Gitalk作评论插件作为一个技术类博客怎能面得了一个评论插件呢。多说挂了,本想跟随yilia的主人Litten使用畅言,无奈这厮居然要备案(这种一看就很麻烦的对我这种懒人,pass)。然后我就找了一个国人自制开源的插件:gitalk,挺小众我喜欢。网上没有找到yilia搭载该插件的相关教程,索性写一个,仅希望各位同仁少走弯路。正文概述本文主...
2020-02-05 19:48:26 1027 3
原创 Python:mitmproxy获取HTTP请求URL
import mitmproxy.httpimport logging,syslogging.basicConfig(filename=sys.path[0]+'/'+__name__+'.log',format='[%(asctime)s-%(filename)s-%(levelname)s:%(message)s]', level=logging.INFO,filemode='a',d...
2019-11-04 17:09:55 2490
原创 ExcelUtils类
import cn.afterturn.easypoi.excel.ExcelExportUtil;import cn.afterturn.easypoi.excel.ExcelImportUtil;import cn.afterturn.easypoi.excel.entity.ExportParams;import cn.afterturn.easypoi.excel.entity.I...
2019-11-04 16:55:24 554
原创 Java BaseMapper示例
import org.apache.ibatis.annotations.Param;import java.util.List;/** * 类BaseMapper的描述: 基础的mapper类 * * @author gaojian.penggj 2018/3/15 下午2:31 */public interface BaseMapper<DOExample, DO&g...
2019-11-04 16:53:28 1996
原创 Java BaseExample示例
package com.hermesfuxi.crm.dao.model;import java.util.ArrayList;import java.util.List;public class BaseExample { protected String orderByClause; protected boolean distinct; pro...
2019-11-04 16:46:26 512
原创 React-AntD常见问题
目录一、antd getFieldDecorator使用rules不起作用(一)问题描述(二)解决问题二、监听页面宽度动态1.在componentDidMount()中加入监听器2.在constructor中绑定resize()3.在componentWillUnmount()中移除监听器三、联动下拉框清空问题四、一个页面调用的多个相同组件,导致props...
2019-11-04 16:31:21 1226
原创 IntelliJ IDEA 常用插件
JRebel for IntelliJ:热部署插件,只要不是修改了项目的配置文件,都可以实现热部署,control+F9/command+F9http://139.199.89.239:1008/67ea78bb-3eb0-49b7-9ab6-5a76aa26bd08Mybatis:Free Mybatis plugin 与 mybatis-generatoMyBatis Log P...
2019-11-04 16:01:56 114
转载 前端Warning解决:多行文本省略号样式失效丢失,以及控制台显示 autoprefixer 警告
前端报错:多行文本省略号样式失效丢失,以及控制台显示 autoprefixer 警告Autoprefixer applies control comment to whole block, not to next rules问题描述:文本多行显示省略号的关键css语句-webkit-box-orient: vertical;莫名其妙丢失失效了。查阅资料,有不少人提出在改样式...
2019-08-27 10:51:44 969
转载 前端React:antd Table组件 去除key、rowKey相关的Warning
感谢鹊湖居士(https://www.linjiaqun.com/js/329.html),成功解决了问题,记录学习了,现转载如下:React项目中总是存在Key相关的warning,这个不能忍!!!目前遇到的warning有以下几个:⑴设置了rowKey属性,但所指定字段的值不是唯一的Warning: Each child in an array or iterator sh...
2019-08-06 19:53:09 9741
原创 前端全局存储JavaScript:Cookie、 LocalStorage 与 SessionStorage
特性 Cookie localStorage sessionStorage 数据的生命期 一般由服务器生成,可设置失效时间。如果在浏览器端生成Cookie,默认是关闭浏览器后失效 除非被清除,否则永久保存 仅在当前会话下有效,关闭页面或浏览器后被清除 存放数据大小 4K左右 一般为5MB 与服务器端通信 每次都会携带在HTTP头中,...
2019-08-06 14:34:43 1052
原创 Spring @Aspect 全注解的AOP测试问题
感谢https://blog.csdn.net/god_is_gril/article/details/53168247?utm_source=blogxgwz3,成功解决问题遇到问题如下:测试切面方法,没有任何错误提示,绿色通过,但始终前置通知和后置通知的打印没起效果,idea显示方法关联到切面了,dubug却并没有走切面。分析:1、@Aspect注解标示的类没有起作用,,检查前...
2018-10-17 13:01:07 651
原创 完全卸载GitLab
一、停止gitlab sudo gitlab-ctl stop二、卸载gitlabsudo rpm -e gitlab-ce三、查看gitlab进程ps -ef | grep gitlab四、再杀掉第一个守护进程(写自己的进程ID),再查看进程kill -9 4549五、删除gitlab文件 find / -name gitlab|xargs r...
2018-10-16 21:41:10 160
(最全)Apache Jakarta Commons 工具集及其API
2018-05-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人