专注大数据
码龄5年
关注
提问 私信
  • 博客:15,948
    15,948
    总访问量
  • 21
    原创
  • 832,475
    排名
  • 9
    粉丝

个人简介:专注大数据领域

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广西
  • 加入CSDN时间: 2020-03-11
博客简介:

BigData2018的博客

查看详细资料
个人成就
  • 获得6次点赞
  • 内容获得2次评论
  • 获得42次收藏
创作历程
  • 23篇
    2020年
成就勋章
TA的专栏
  • Kafka
    1篇
  • 大数据面试
    2篇
  • Spark
    5篇
  • CDH
    3篇
  • 大数据shell常用脚本
    1篇
  • Flume
    1篇
  • Hadoop
    3篇
  • GitHub
    1篇
  • Zookeeper
    2篇
  • Java
    2篇
  • Scala
    1篇
  • Linux
    2篇
  • python
    1篇
  • 算法
    2篇
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

如何根据数据量确定Kafka分区个数、Kafka的分区是不是越多越好、Kafak生产者分发策略,消费者负载均衡 09

Kafka的分区数是不是越多越好?1.1 分区多的优点Kafka使用分区将topic的消息打算到多个分区分布保存在不同的broker上,实现了producer和consumer消息处理的高吞吐量。Kafka的producer和consumer都可以多线程地并行操作,而每个线程处理的是一个分区的数据。因此分区实际上是调优Kafka并行度的最小单元。对于producer而言,它实际上是用多个线程并发地向不同分区所在的broker发起socket连接,同时给这些分区发送消息。对于consumer,同.
转载
发布博客 2020.08.28 ·
405 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据面试-Spark专题-002

目录:01、Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?02、如何使用Spark实现TopN的获取(描述思路或使用伪代码)03、分别简述Spark中的缓存机制(cache和persist)与checkpoint机制,并指出两者的区别与联系04、当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?05、简述Spark中共享变量(广播变量和累加器)的基本原理与用途。01、Spark常用算子reduceByKey与groupByKey的区别,哪一种
原创
发布博客 2020.07.10 ·
570 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

大数据面试-Spark专题-001

这里写目录标题1、Spark有几种部署方式?请分别简要论述2、Spark提交作业参数,及参数常规设置?3、简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数?4、Spark任务使用什么进行提交,JavaEE界面还是脚本?5、简述Spark的架构与作业提交流程(画图并注明务个部分作用)1、Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调
原创
发布博客 2020.07.07 ·
421 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark(02)——Spark快速度入门、WordCount案例

目录一、创建工程二、增加依赖关系三、WordCount案例四、异常处理一、创建工程我们使用的Spark版本为2.4.5,默认采用的Scala版本为2.121、创建 IDEA 工程2、增加 Scala 支持二、增加依赖关系修改Maven项目中的POM文件,增加Spark框架的依赖关系。本课件基于Spark2.4.5版本,使用时请注意对应版本。<dependencies> <dependency> <groupId>org.apach
原创
发布博客 2020.06.02 ·
374 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark(03)——Spark四种运行部署模式:Local模式、Standalone模式、Yarn模式、Windows模式

目录一、Local模式二、Standalone模式**6、配置历史服务**三、Yarn模式四、Windows模式Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下Spark的运行一、Local模式所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等,之前在IDEA中运行代码的环境我们称之为开发环境,不太一样。1、
原创
发布博客 2020.06.02 ·
2460 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

阿里云CDH6(03)--Centos7.6部署Cloudera Manager6.3.1、CDH6.32

一、前置准备1、三台服务器hosts文件修改vim /etc/hosts更改为:192.168.117.100 nogc112 nogc112192.168.117.101 nogc113 nogc113192.168.117.102 nogc114 nogc1142.ssh免密登录1、三台服务器执行ssh-keygen然后一直回车。2、三台服务器执行ssh-copy-id nogc112点yes输入密码。3、三台服务器执行ssh-copy-id nogc113
原创
发布博客 2020.05.31 ·
854 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

阿里云CDH6(02)--Centos7.6部署Cloudera Manager6.3.1、CDH6.32

一、软件版本准备类目版本下载地址操作系统CentOS-7.6阿里云镜像数据库mysql-5.7yum安装JDKjdk-8u212-linux-x64.taroracle官网Cloudera Managercmd6.3.1、cms6.3.1、cma6.3.1yum安装或官网下载CDHCDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcelCM在线安装或官网下载cloudera要求的配置网址二、节点准备
原创
发布博客 2020.05.31 ·
571 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

阿里云CDH6(01)--Centos7.6部署Cloudera Manager6.3.1、CDH6.32

一、阿里云服务器申请步骤1、先用支付宝注册登录阿里云2、然后按图流程注册然后点下一步:然后点下一步:最后提交订单,账号里要有至少100元才能完成提交。二、创建安全组三、实例说明选择停止不收费,会释放公有IP,再次启动时要更改C:\Windows\System32\drivers\etc下的hosts和Xshell里的主机(H): ip四、连接Xshell6等工具第二步:五、Windows下更改hosts映射在C:\Windows\System32\drivers\
原创
发布博客 2020.05.31 ·
464 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据shell常用脚本01--集群分发脚本xsync

目录:一、scp(secure copy)安全拷贝二、rsync 远程同步工具三、xsync集群分发脚本(重点)一、scp(secure copy)安全拷贝scp定义:scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)基本语法scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名
原创
发布博客 2020.05.11 ·
367 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Flume1.9.0实时监控目录下多个新文件

1.案例需求:使用Flume监听整个目录的文件,并上传至HDFS2.实现步骤:(1)创建配置文件flume-dir-hdfs.conf创建一个文件[nogc@hadoop102 job]$ vim flume-dir-hdfs.conf添加如下内容:a3.sources = r3a3.sinks = k3a3.channels = c3# Describe/configure...
原创
发布博客 2020.05.04 ·
650 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Windows环境下解决github里图片图像无法显示问题

Windows端解决方案:打开路径C:\Windows\System32\drivers\etc下的hosts文件最后一行添加如下代码:# GitHub Start 192.30.253.112 github.com 192.30.253.119 gist.github.com151.101.184.133 assets-cdn.github.com151.101....
转载
发布博客 2020.04.26 ·
1054 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

基于Centos7.6和Hadoop3.13环境下安装Hive3.12

目录一、前置环境二、Hive地址三、Hive安装部署四、Hive元数据配置到MySql五、安装Tez引擎六、启动Hive一、初始化元数据库二、启动metastore和hiveserver2七、HiveJDBC访问八、Hive访问一、前置环境Centos7.6下MySql-5.7.28安装Centos7.6下Hadoop-3.13安装二、Hive地址1.Hive官网地址http://hi...
原创
发布博客 2020.04.25 ·
1087 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Centos7.6环境下Zookeeper本地模式安装部署

目录一、前置条件二、配置修改三、操作Zookeeper一、前置条件Hadoop本地运行模式的运行依赖 JDK,Hadoop需要预先安装,安装步骤见:虚拟机环境Centos7.6环境下 JDK8 安装集群分发脚本xsync拷贝Zookeeper安装包到Linux系统下,解压到指定目录[nogc@hadoop102 software]$ tar -zxvf zookeeper-3...
原创
发布博客 2020.04.24 ·
206 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Centos7.6环境下Zookeeper分布式集群环境安装部署

Zookeeper分布式安装部署一、前置条件二、分布式安装部署三、操作Zookeeper一、前置条件Hadoop本地运行模式的运行依赖 JDK,Hadoop需要预先安装,安装步骤见:虚拟机环境Centos7.6环境下 JDK8 安装集群分发脚本xsync拷贝Zookeeper安装包到Linux系统下,解压到指定目录[nogc@hadoop102 software]$...
原创
发布博客 2020.04.23 ·
250 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于Hadoop3.13完全分布式运行模式环境安装部署

Hadoop完全分布式运行模式(开发重点)一、前置条件二、集群环境三、Hadoop集群环境配置 四、集群单点启动 五、SSH无密登录配置 六、群起集群 七、集群启动与停止方式 八、配置历史服务器 九、配置日志的聚集 十、集群时间同步一、前置条件Hadoop本地运行模式的运行依赖 JDK,Hadoop需要预先安装,安装步骤见:虚...
原创
发布博客 2020.04.23 ·
703 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Spark(01)——Spark概念

Spark-Core 和 弹性分布式数据集(RDDs)Spark-Core 是整个 Spark 的基础, 提供了分布式任务调度和基本的 I/O 功能Spark 的基础的程序抽象是弹性分布式数据集(RDDs), 是一个可以并行操作, 有容错的数据集合RDDs 可以通过引用外部存储系统的数据集创建(如HDFS, HBase), 或者通过现有的 RDDs 转换得到RDDs 抽象提供了 Ja...
原创
发布博客 2020.04.14 ·
328 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala与Java对比性学习(基础部分)不断更新完善中....

一、1.程序入口,IDEA中java用psvm,scala用main快捷(异)Scala程序的执行入口是main()函数scala: object Cc { def main(args: Array[String]): Unit = { println("cc") }}//反编译后:public final class HelloWorld{ public s...
原创
发布博客 2020.04.02 ·
268 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

VMware Workstation15安装

VMware Workstation安装双击运行安装包程序接受许可证协议(关键不接受不让安装啊………)选择安装位置,建议非中文无空格,增强型键盘驱动程序可选按照自身使用习惯勾选产品更新和客户体验提升计划快捷方式开始安装……稍等一会会…… 不要捉急……可输入许可证也可直接完成,如直接完成需要在打开软件时输入许可证。输入许可证秘...
原创
发布博客 2020.03.31 ·
673 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Maven的依赖

目录一、依赖管理1、基本概念2、直接依赖和间接依赖二、依赖范围1、compile2、test3、provided4、其他:runtime、import、system等。三、依赖的传递性四、依赖的原则:解决jar包冲突1、路径最短者优先2、路径相同时先声明者优先五、依赖的排除1、有的时候为了确保程序正确可以将有可能重复的间接依赖排除。请看如下的例子:一、依赖管理1、基本概念当A jar包需要用...
原创
发布博客 2020.03.30 ·
422 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Python报错SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3:

错误原因是在windows下,你的文件路径没转义处理导致!一 、错误演示f = open('C:\Users\whj\Desktop\一亿测试数据.csv','r',encoding='utf8')二、正确演示1、使用正斜杠f = open('C:/Users/whj/Desktop/一亿测试数据.csv','r',encoding='utf8')2、使用双反斜杠,第一个代表转义...
原创
发布博客 2020.03.29 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多