自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

chen7588693的博客

原创基于CDH6.3.2部署Linkis1.1.1和DSS1.1.0

CDH6.3.2部署DSS+Linkis

2022-09-27 09:27:38 1423

原创 HDFS写数据为什么不直接分发给三个节点，而是构建pipeline管道？

HDFS写数据为什么不直接分发给三个节点，而是构建pipeline管道？HDFS数据写入时是构建一个pipeline，将数据先写入第一个节点，然后第一节点写给第二节点，然后第二节点写给第三节点，然后写入才完成。如果是同步的，每次写操作都必须要等待第三个节点写完并返回成功后才能写下一条数据，那么确实和直接分发给三个节点是一样的。如果写给第一个节点后，write即可返回，进行下一次写操作了。这时，第一个节点一边在给下一个节点写数据，一边在接收client传来的数据。同时利用了输入输出带宽。假设每次从一个节点

2020-09-26 22:36:16 801

原创根据XML转换为List<Map>

根据传入的XML路径获取XML中指定标签下的所有子标签，并将其封装到List<Map>中。/** * * @param xml XML文件 * @param targetElement 需要解析的标签 * @return * @throws DocumentException */ public static ...

2019-11-22 11:53:01 1710

原创消息中间件ActiveMQ(一)

消息中间件概述什么是消息中间件？关注与数据的发送和接受，利用高效可靠的异步消息传送机制集成分布式系统。什么是JMS？Java消息服务(Java Message Service) 即JMS，是一个Java平台中关于面向消息中间件的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。什么是AMQP？AMQP（advanced message queuing protoco...

2019-03-22 16:31:17 693

转载 MySQL中select的正确姿势

文章转载自http://www.cnblogs.com/rjzheng/p/9902911.html引言大家在开发中，还有很多童鞋在写查询语句的时候，习惯写下面这种不规范sqlselect * from table而不写成下面的这种规范方式select col1,col2,...,coln from table我也知道，这些童鞋是图方便，毕竟再敲一堆的列名，嫌麻烦!你们上班可以问问...

2019-03-20 15:41:11 708

原创 SparkRDD函数详解(二)--RDD动作操作函数

相对于转换，动作（Action）操作用于向驱动（Driver）程序返回值或者将值写入到文件当中。reduce(func):通过func函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的 val rdd1 = sc.makeRDD(1 to 10,2) rdd1.reduce(_+_)val rdd2 = sc.makeRDD(Array(("a",1),("a",3),("...

2019-01-19 22:48:06 989

原创 SparkRDD函数详解（一）--RDD转换函数

1.什么是RDD RDD(Resilient Distributed Dataset),弹性分布式数据集，Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Ja...

2019-01-17 21:12:37 2331

原创第一个spark程序----WordCount

和hadoop一样，学习spark从WordCount开始。启动Spark Shellspark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。执行命令 bin/spark-shell启动hdfs上传一个文档到hdfs编写WordCount在Spark shell中用scala语言编写spar...

2019-01-16 15:19:46 421

原创 Spark的安装与配置

一、Spark 概述1.什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、Graph...

2019-01-15 21:53:37 448

原创【问题】Beeline连接Hiveserver2错误

在用客户端访问server2时出现如下错误Error: Could not open connection to jdbc:hive2://hadoop-senior01.atguigu.com:10000: java.net.ConnectException: Connection refused (state=08S01,code=0)解决办法查看hive-site.xml文件检查以...

2018-12-27 00:15:01 1945

原创 Hadoop集群一键启动和关闭脚本

hadoop在启动集群时，需要启动hdfs和yarn集群。启动hdfs和yarn可以使用start-dfs.sh ,start-yarn.sh 或者单节点一个一个启动，但是这样比较麻烦，所以这里准备写一个脚本，一键启动hdfs和yarn。群起脚本#!/bin/bashecho "*********************正在开启集群服务****************************...

2018-12-23 23:05:59 7990 1

原创【namenode格式化失败】HA中格式化namenode 失败问题

在配置IHA时，格式化namenode时失败。原因是在格式化namenode时，我将所有的节点都关闭了，这其中包括了journalnode节点！！！导致了namenode1 和namenode2之间无法通信。所以解决方案就是将各个journalnode节点开启就好。开启各个节点的journalnodenamenode 节点格式化成功。问题解决！！！...

2018-12-19 14:47:44 3401 3

原创 YARN工作机制

一、YARN概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二、YARN的重要概念yarn并不清楚用户提交的程序运行机制yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源）yarn中的主管角色叫ResourceManageryarn中具...

2018-12-16 22:23:07 372

转载 MapReduce执行流程详解

文章转载自：https://www.cnblogs.com/sunfie/p/4651609.html一、MapReduce执行过程MapReduce运行时，首先通过Map读取HDFS中的数据，然后经过拆分，将每个文件中的每行数据分拆成键值对，最后输出作为Reduce的输入，大体执行流程如下图所示：整个流程图具体来说：每个Mapper任务是一个java进程，它会读取HDFS中的文件，解析成...

2018-12-15 15:58:57 2190

原创 MapReduce之自定义WordCount案例

在一堆给定的文本文件中统计输出每一个单词出现的总次数。1.分析mapper阶段：将mapstack 传给我们的文本信息内容先转换成string。根据空格将一行切分成单词。将单词输出为<单词，1>的格式。reducer阶段汇总各个key的个数输出该key的总数driver阶段获取配置信息指定本程序的jar所在的本地路径关联mapper和reducer类...

2018-12-13 11:05:44 429

原创【问题】多次格式化namenode导致节点无法启动问题

多次对namenode进行格式化导致节点无法启动的解决多次格式化namenode造成了namenode和datanode的clusterID不一致！每次格式化时，namenode会更新clusterID，但是datanode只会在首次格式化时确定，因此就造成不一致现象。这里提供了两种解决办法:1.打开core-site.xml文件里面配置的目录打开namenode 对应的current...

2018-12-06 11:49:56 4212 2

原创客户端通过API操作HDFS

一、前期准备jar包准备解压hadoop的压缩包，进入share文件夹，将其中的jar包放入一个文件夹中，在eclipse中导入。2.配置环境变量配置HADOOP_HOME环境变量二、API操作HDFS操作HDFS步骤主要有三步1.获取文件系统2.对文件进行操作3.关闭资源1.文件上传public static void main(String[] args) thro...

2018-12-06 11:29:36 489

原创 Hadoop HDFS常用命令

一、基本语法bin/hadoop fs 具体命令二、常用命令实操-help:输出这个命令的参数bin/hdfs dfs -help rm-ls :显示目录信息-mkdir:在hdfs 上创建目录-moveFromLcoal:从本地剪切粘贴到hdfs-moveToLocal: 从hdfs剪切粘贴到本地-cat:显示文件内容-tail :显示一个文件的末尾-text:以字符形...

2018-12-03 10:39:22 355

原创伪分布式运行Hadoop实例之yarn运行MapReduce实例

一、配置集群配置yarn-env.sh文件配置一下JAVA_HOME配置yarn-site.xml<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value&...

2018-11-30 14:58:17 619

原创伪分布式运行Hadoop实例之HDFS运行MapReduce程序

一、前期准备准备一台客户机安装jdk配置环境变量安装Hadoop配置环境变量二、配置集群配置hadoop-env.sh文件cd /opt/module/hadoop-2.7.2/etc/hadoopvim hadoop-env.sh配置core-site.xml这个文件也在hadoop目录下&lt...

2018-11-29 23:55:27 1256

原创本地文件运行hadoop案例

一、Hadoop的运行模式Hadoop有三种运行模式：本地模式、伪分布式模式和完全分布式模式。本地模式，顾名思义，就是在一台linux服务器进行安装，这种模式也是Hadoop的默认模式，在这种安装模式下Hadoop的core-site.xml、mapred-site.xml、hdfs-site.xml等配置文件都是空的，不需要配置。在本地模式下，Hadoop单独运行，不与其他节点进行...

2018-11-29 18:19:11 483

原创 linux安装Hadoop

之前发布过一篇linux环境下安装jdk，此次安装Hadoop和之前的流程是一样的。进入到hadoop 的安装路径下cd /opt/software/解压安装包到module目录下tar -zxf hadoop-2.7.2.tar.gz -C /opt/module/查看是否解压成功ls /opt/module/配置Hadoop中的hadoop-env.sh文件1...

2018-11-24 23:31:59 640

原创 linux环境下安装jdk

一.安装环境操作系统：CentOS6.5jdk版本：1.7工具：FileZilla二：资源准备准备jdk1.7 安装包我这里提供了jdk1.7安装包和FileZilla工具链接：https://pan.baidu.com/s/1HJphPQr5bDMXMgy3_j74lg 提取码：xnsr三：安装JDK1.卸载现有的jdk查询是否安装java软件：rpm –qa|g...

2018-11-22 23:03:34 303

原创 linux学习笔记之yum仓库配置

1.yum简介 YUM（全称为 Yellow dog Updater, Modified）是一个在Fedora和RedHat以及CentOS中的Shell前端软件包管理器。基于RPM包管理，能够从指定的服务器自动下载RPM包并且安装，可以自动处理依赖性关系，并且一次安装所有依赖的软件包，无须繁琐地一次次下载、安装。2.yum 的常用命令基本语法yum install -y httpd...

2018-11-22 11:56:29 490

原创 linux学习笔记之shell编程

1.什么是Shell？ Shell是一个命令行解释器，它为用户提供一个向linux内核发送请求以便运行程序的界面系统级程序，用户可以用Shell来启动、挂起、停止甚至编写一些程序。 Shell还是一个功能强大的编程语言，易编写、已调试、灵活性强。Shell是解释执行的脚本语言，在shell中可以调用linux系统命令。2.Shell脚本的执行方式 1）echo输出内容到控制台 ...

2018-11-21 22:05:10 264

原创 linux学习笔记之常用基本命令(二)

3. 用户管理命令useradd 添加新用户语法：useradd 用户名passwd 设置用户密码语法： passwd 用户名id 判断用户是否存在语法： id 用户名su 切换用户语法： su 用户名userdel 删除用户语法： userdel 用户名who 查看登录用户信息（1）whoami （功能描述：显示自身用户名称）（2）who ...

2018-11-20 22:46:47 158

原创 linux学习笔记之常用基本命令（一）

1.帮助命令man获取帮助信息语法：man[命令或配置文件]help获得shell内置命令的帮助信息语法：help 命令例： help cd常用快捷键ctrl +c: 停止进程ctrl +l: 清屏ctrl +q: 退出tab键：补全命令（常用tab键可快速输入命令）上下键：查找执行过的命令ctrl +alt :在Linux与window系统中互相切换2.文件目录命...

2018-11-20 21:51:41 448

原创 linux学习笔记之系统管理操作

1.查看网络IP和网关查看虚拟网络编辑器在VMware里选择编辑-&gt;虚拟网络编辑器修改ip地址在虚拟编辑器里面选择NAT模式，然后配置子网ip, 如果不知道本机ip ,可以在window命令行中输入ipconfig 查看当前ip地址查看网关2.配置网络IP地址查看当前ip地址[root@hadoop102 /]# ifconfig修改ip地...

2018-11-19 15:41:30 207

原创 VMWare下安装Linux系统（详细版）

创建虚拟机新建一个虚拟机典型类型配置安装客户机操作系统4.选择Linux操作系统，版本选择centos6就可以了5.虚拟机存放位置，建议新建一个文件夹专门放虚拟机文件6.磁盘容量，默认即可7.完成虚拟机创建8.设置虚拟机，这里的DVD选择ISO映像文件，可以去centos官网下载centos镜像文件，大概4个G，我这里下载的是6.5版本的。9.开启虚拟...

2018-10-24 20:00:12 101840 10

原创获取指定包下的所有类

/**获取指定包下的所有类@author kevin/public class PackageUtil {public static List getClassName(String packageName) throws IOException {try {return getClassNamefFromPachage(packageName);} catch (Clas...

2018-10-24 11:27:57 1762

Kafka常见面试题.docx

常见Kafka面试题：1、如何提升生产者的吞吐量？2、如何保证kafka内部数据不丢失 3.积压了百万消息如何处理等面试题

2020-10-18

大数据技术之高频面试题.docx

大数据面试题，包括hadoop、zookeeper、hive、hbase、flume、kafka、spark、flink、jvm、常见算法等

2020-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除