自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 如何根据数据量确定Kafka分区个数、Kafka的分区是不是越多越好、Kafak生产者分发策略,消费者负载均衡 09

Kafka的分区数是不是越多越好?1.1 分区多的优点Kafka使用分区将topic的消息打算到多个分区分布保存在不同的broker上,实现了producer和consumer消息处理的高吞吐量。Kafka的producer和consumer都可以多线程地并行操作,而每个线程处理的是一个分区的数据。因此分区实际上是调优Kafka并行度的最小单元。对于producer而言,它实际上是用多个线程并发地向不同分区所在的broker发起socket连接,同时给这些分区发送消息。对于consumer,同.

2020-08-28 11:55:50 353

原创 大数据面试-Spark专题-002

目录:01、Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?02、如何使用Spark实现TopN的获取(描述思路或使用伪代码)03、分别简述Spark中的缓存机制(cache和persist)与checkpoint机制,并指出两者的区别与联系04、当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?05、简述Spark中共享变量(广播变量和累加器)的基本原理与用途。01、Spark常用算子reduceByKey与groupByKey的区别,哪一种

2020-07-10 18:39:58 477

原创 大数据面试-Spark专题-001

这里写目录标题1、Spark有几种部署方式?请分别简要论述2、Spark提交作业参数,及参数常规设置?3、简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数?4、Spark任务使用什么进行提交,JavaEE界面还是脚本?5、简述Spark的架构与作业提交流程(画图并注明务个部分作用)1、Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调

2020-07-07 08:40:36 372

原创 Spark(02)——Spark快速度入门、WordCount案例

目录一、创建工程二、增加依赖关系三、WordCount案例四、异常处理一、创建工程我们使用的Spark版本为2.4.5,默认采用的Scala版本为2.121、创建 IDEA 工程2、增加 Scala 支持二、增加依赖关系修改Maven项目中的POM文件,增加Spark框架的依赖关系。本课件基于Spark2.4.5版本,使用时请注意对应版本。<dependencies> <dependency> <groupId>org.apach

2020-06-02 20:52:04 343

原创 Spark(03)——Spark四种运行部署模式:Local模式、Standalone模式、Yarn模式、Windows模式

目录一、Local模式二、Standalone模式**6、配置历史服务**三、Yarn模式四、Windows模式Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下Spark的运行一、Local模式所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等,之前在IDEA中运行代码的环境我们称之为开发环境,不太一样。1、

2020-06-02 20:32:29 2264

原创 阿里云CDH6(03)--Centos7.6部署Cloudera Manager6.3.1、CDH6.32

一、前置准备1、三台服务器hosts文件修改vim /etc/hosts更改为:192.168.117.100 nogc112 nogc112192.168.117.101 nogc113 nogc113192.168.117.102 nogc114 nogc1142.ssh免密登录1、三台服务器执行ssh-keygen然后一直回车。2、三台服务器执行ssh-copy-id nogc112点yes输入密码。3、三台服务器执行ssh-copy-id nogc113

2020-05-31 19:46:04 812

原创 阿里云CDH6(02)--Centos7.6部署Cloudera Manager6.3.1、CDH6.32

一、软件版本准备类目版本下载地址操作系统CentOS-7.6阿里云镜像数据库mysql-5.7yum安装JDKjdk-8u212-linux-x64.taroracle官网Cloudera Managercmd6.3.1、cms6.3.1、cma6.3.1yum安装或官网下载CDHCDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcelCM在线安装或官网下载cloudera要求的配置网址二、节点准备

2020-05-31 19:41:38 528

原创 阿里云CDH6(01)--Centos7.6部署Cloudera Manager6.3.1、CDH6.32

一、阿里云服务器申请步骤1、先用支付宝注册登录阿里云2、然后按图流程注册然后点下一步:然后点下一步:最后提交订单,账号里要有至少100元才能完成提交。二、创建安全组三、实例说明选择停止不收费,会释放公有IP,再次启动时要更改C:\Windows\System32\drivers\etc下的hosts和Xshell里的主机(H): ip四、连接Xshell6等工具第二步:五、Windows下更改hosts映射在C:\Windows\System32\drivers\

2020-05-31 19:40:19 433

原创 大数据shell常用脚本01--集群分发脚本xsync

目录:一、scp(secure copy)安全拷贝二、rsync 远程同步工具三、xsync集群分发脚本(重点)一、scp(secure copy)安全拷贝scp定义:scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)基本语法scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名

2020-05-11 22:07:42 338

原创 Flume1.9.0实时监控目录下多个新文件

1.案例需求:使用Flume监听整个目录的文件,并上传至HDFS2.实现步骤:(1)创建配置文件flume-dir-hdfs.conf创建一个文件[nogc@hadoop102 job]$ vim flume-dir-hdfs.conf添加如下内容:a3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure...

2020-05-04 22:29:54 608

转载 Windows环境下解决github里图片图像无法显示问题

Windows端解决方案:打开路径C:\Windows\System32\drivers\etc下的hosts文件最后一行添加如下代码:# GitHub Start 192.30.253.112 github.com 192.30.253.119 gist.github.com151.101.184.133 assets-cdn.github.com151.101....

2020-04-26 10:07:35 1016 1

原创 基于Centos7.6和Hadoop3.13环境下安装Hive3.12

目录一、前置环境二、Hive地址三、Hive安装部署四、Hive元数据配置到MySql五、安装Tez引擎六、启动Hive一、初始化元数据库二、启动metastore和hiveserver2七、HiveJDBC访问八、Hive访问一、前置环境Centos7.6下MySql-5.7.28安装Centos7.6下Hadoop-3.13安装二、Hive地址1.Hive官网地址http://hi...

2020-04-25 00:01:21 1010

原创 Centos7.6环境下Zookeeper本地模式安装部署

目录一、前置条件二、配置修改三、操作Zookeeper一、前置条件Hadoop本地运行模式的运行依赖 JDK,Hadoop需要预先安装,安装步骤见:虚拟机环境Centos7.6环境下 JDK8 安装集群分发脚本xsync拷贝Zookeeper安装包到Linux系统下,解压到指定目录[nogc@hadoop102 software]$ tar -zxvf zookeeper-3...

2020-04-24 08:29:37 179

原创 Centos7.6环境下Zookeeper分布式集群环境安装部署

Zookeeper分布式安装部署一、前置条件二、分布式安装部署三、操作Zookeeper一、前置条件Hadoop本地运行模式的运行依赖 JDK,Hadoop需要预先安装,安装步骤见:虚拟机环境Centos7.6环境下 JDK8 安装集群分发脚本xsync拷贝Zookeeper安装包到Linux系统下,解压到指定目录[nogc@hadoop102 software]$...

2020-04-23 23:29:15 230

原创 基于Hadoop3.13完全分布式运行模式环境安装部署

Hadoop完全分布式运行模式(开发重点)一、前置条件二、集群环境三、Hadoop集群环境配置 四、集群单点启动 五、SSH无密登录配置 六、群起集群 七、集群启动与停止方式 八、配置历史服务器 九、配置日志的聚集 十、集群时间同步一、前置条件Hadoop本地运行模式的运行依赖 JDK,Hadoop需要预先安装,安装步骤见:虚...

2020-04-23 23:25:14 665

原创 Spark(01)——Spark概念

Spark-Core 和 弹性分布式数据集(RDDs)Spark-Core 是整个 Spark 的基础, 提供了分布式任务调度和基本的 I/O 功能Spark 的基础的程序抽象是弹性分布式数据集(RDDs), 是一个可以并行操作, 有容错的数据集合RDDs 可以通过引用外部存储系统的数据集创建(如HDFS, HBase), 或者通过现有的 RDDs 转换得到RDDs 抽象提供了 Ja...

2020-04-14 00:32:25 304

原创 Scala与Java对比性学习(基础部分)不断更新完善中....

一、1.程序入口,IDEA中java用psvm,scala用main快捷(异)Scala程序的执行入口是main()函数scala: object Cc { def main(args: Array[String]): Unit = { println("cc") }}//反编译后:public final class HelloWorld{ public s...

2020-04-02 09:15:39 233 1

原创 VMware Workstation15安装

VMware Workstation安装双击运行安装包程序接受许可证协议(关键不接受不让安装啊………)选择安装位置,建议非中文无空格,增强型键盘驱动程序可选按照自身使用习惯勾选产品更新和客户体验提升计划快捷方式开始安装……稍等一会会…… 不要捉急……可输入许可证也可直接完成,如直接完成需要在打开软件时输入许可证。输入许可证秘...

2020-03-31 11:47:15 641

原创 Maven的依赖

目录一、依赖管理1、基本概念2、直接依赖和间接依赖二、依赖范围1、compile2、test3、provided4、其他:runtime、import、system等。三、依赖的传递性四、依赖的原则:解决jar包冲突1、路径最短者优先2、路径相同时先声明者优先五、依赖的排除1、有的时候为了确保程序正确可以将有可能重复的间接依赖排除。请看如下的例子:一、依赖管理1、基本概念当A jar包需要用...

2020-03-30 18:12:52 385

原创 Python报错SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3:

错误原因是在windows下,你的文件路径没转义处理导致!一 、错误演示f = open('C:\Users\whj\Desktop\一亿测试数据.csv','r',encoding='utf8')二、正确演示1、使用正斜杠f = open('C:/Users/whj/Desktop/一亿测试数据.csv','r',encoding='utf8')2、使用双反斜杠,第一个代表转义...

2020-03-29 18:04:14 203

原创 (找了几种方法后的最佳方案)Windows10安装VMware没有虚拟网卡VMnet8、VMnet1的解决方案!

解决方法如下:1.pip版本问题,可更新下版本python -m pip install --upgrade pip2.下载源问题,可改成阿里镜像pip install -i https://mirrors.aliyun.com/pypi/simple 模块名问题如下:ERROR: Exception:Traceback (most recent call last):File...

2020-03-29 00:57:25 3040

原创 Java实现快速排序算法

目录:一.快速排序简介二.动图演示三.代码实现一.快速排序简介1、先从数列中取出一个数作为基准数。2、分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边。3、再对左右区间重复第二步,直到各区间只有一个数。4.、时间复杂度:O(nlogn)5、空间复杂度:快速排序使用递归,递归使用栈,因此它的空间复杂度为O(logn)6、稳定性:快速排序无法保证相等的元素的相对位...

2020-03-25 20:55:49 187

原创 选择排序-Java实现

目录:一.选择排序简介二.动图演示三.代码实现一.选择排序简介1.初始状态:序列为无序状态。2.第1次排序:从n个元素中找出最小(大)元素与第1个记录交换3.第2次排序:从n-1个元素中找出最小(大)元素与第2个记录交换4.第i次排序:从n-i+1个元素中找出最小(大)元素与第i个记录交换5.以此类推直到排序完成6.时间复杂度:O(n^2);不稳定,可能会使得某些元素的相对位置发生变...

2020-03-24 14:35:57 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除