自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 收藏
  • 关注

转载 Sqoop import as-parquetfile时兼容decimal数据类型解决方案(抽取MySQL数据到Hive中,decimal问题)

转载自:https://blog.csdn.net/Sheepflysun/article/details/108247256一、sqoop import 问题总结 Sqoop import as-parquetfile时兼容decimal数据类型问题 1.建表不压缩,默认存储格式 Textfile>>>>>sqoop 导入不压缩,不指定存储格式 1.1 MySQL:decimal————>Hive:decimal, sql 查询该字段,默认为Null值; 在hdfs

2021-02-25 17:37:53 1107

原创 【学习笔记】scala之循环控制

打打

2020-09-28 22:06:17 197

原创 【读书笔记】scala之条件控制if

1 条件控制语法scala中的条件控制if主要是三种写法ifif (布尔表达式) { statement}if…elseif (布尔表达式) { statement} else { statement}当实际的执行语句很短的情况下,可以直接简化if…else语句,在一行中写完,并可以将该条件判断的结果赋值给某个变量val va = if (布尔表达式) x else yif…else if…elseif (布尔表达式1) { statement} else if (布尔

2020-09-28 19:47:37 999

原创 【学习笔记】Scala之HelloWorld

Scala之HelloWorldHelloWorld虽然只是一个最简单的入门程序,但是也能反应一门语言最基础的语法结构,Scala的练习就从HelloWorld开始吧!

2020-09-27 15:56:57 662

原创 【学习笔记】Hadoop之HDFS常用shell命令

1.hadoop命令$ hadoop fs run a generic filesystem user client #访问文件系统,相当于hdfs dfs version print the version jar <jar> run a jar file #运行一个jar到yarn上...

2019-07-11 09:55:49 434

原创 【学习笔记】Hadoop之HDFS读写流程

HDFS读流程读取HDFS文件命令$ hdfs dfs -cat /examples/output1/XXX$ hdfs dfs -text /examples/output1/XXX读流程Client调用FileSystem.open(filePath)方法与NameNode通过【RPC】协议通信,检查用户是否有权限访问,文件是否存在。假如都OK,返回该文件的部分或者全部的...

2019-07-10 10:09:29 189

转载 【学习笔记】Hadoop之HDFS Block损坏恢复最佳实践(含思考题)

转载自https://mp.weixin.qq.com/s/85GCQS5cumPyu6dSOOvIpA一.文件ruozedata.md上传:-bash-4.2$ hdfs dfs -mkdir /blockrecover-bash-4.2$ echo "www.ruozedata.com" > ruozedata.md-bash-4.2$ hdfs dfs -put...

2019-07-09 09:42:52 1238

原创 【学习笔记】Hadoop之HDFS架构、SecondaryNameNode、副本放置策略

1. HDFS架构HDFS是主从架构,一个NameNode作为主节点,维护管理文件系统的元数据信息,N个DataNode作为从节点,存储实际的数据块。【图片后续补】1.1 NameNode(简称NN)维护管理文件系统的元数据信息文件目录结构文件名称文件属性(权限,创建时间,副本数…)文件对应的块(副本)与DataNode的映射关系这个映射关系,不会持久化存储,而是在集群启动和运...

2019-07-09 09:22:44 233

原创 【学习笔记】Hadoop之HDFS的块大小、小文件和副本数

HDFS的块大小HDFS是以块(Block)作为基本的存储单元,默认块大小是128M。在生产上也有根据集群情况,把HDFS的块大小设置为256M的。比如一个150M的文件要存储到HDFS中,将会拆分成2个块,大小分别是128M、22M。HDFS不擅长小文件的处理  HDFS文件系统擅长于处理大文件的场景,不擅长于处理小文件的场景,这主要有两个原因:  一个是大量的小文件元数据信息的管理维...

2019-07-07 11:58:43 6907 2

原创 Hadoop伪分布式部署之ssh免密钥登陆

前言在之前的章节中,我们有介绍到伪分布式的hdfs、yarn和mapreduce、历史服务与日志聚集、SecondaryNameNode的部署。接下来我们一起探讨下hadoop的ssh免密钥登陆。我们的hadoop环境如下 操作系统:CentOS6.4 Java版本:Oracle jdk1.7 Hadoop版本:Hadoop2.5.0 主机hostname:hadoop01....

2018-04-15 21:29:23 2773 1

原创 【读书笔记】MapReduce之数据本地化

读书时遇到喜欢的内容,记下笔记,以加深自己的印象,将来亦可以回味。 以下内容摘自Tom White的《Hadoop权威指南》。数据本地化特性是MapReduce的核心特征,并因此而获得良好的性能。 意识到网络带宽是数据中心环境最珍贵的资源(到处复制很容易耗尽网络带宽)之后,MapReduce通过显式网络拓扑结构保留网络带宽。Ps:关于什么是显式网络拓扑结构博主现在也不懂,更不明...

2018-04-15 16:28:25 870 1

原创 Hadoop之namenode启动过程分析

前言(30秒等待)namenode的启动过程中,主要做了两件事情:1、加载fsimage元数据和edits日志文件更加详细的介绍可以参考我之前的博文Hadoop伪分布式部署之SecondaryNameNode。2、等待datanode的注册信号和块状态信息报告namenode启动的过程中,会有30秒的等待时间,等待datanode的注册信号和块状态信息报告。 在这30...

2018-04-14 20:52:27 1034 1

原创 Hadoop伪分布式部署之SecondaryNameNode

前言在之前的章节中,我们有介绍到伪分布式的hdfs、yarn和mapreduce、历史服务与日志聚集的部署。接下来我们一起探讨下hadoop的SecondaryNameNode,内容可能较为粗糙,待博主以后水平提升后再来深入细化。我们的hadoop环境如下 操作系统:CentOS6.4 Java版本:Oracle jdk1.7 Hadoop版本:Hadoop2.5.0 主机h...

2018-04-14 16:19:01 2241

原创 Hadoop伪分布式部署之历史服务与日志聚集

前言在做完 Hadoop伪分布式部署之hdfs和Hadoop伪分布式部署之yarn和mapreduce之后,我们来做一下历史服务和日志聚集的部署。 相关环境如下: 操作系统:CentOS6.4 Java版本:Oracle jdk1.7 Hadoop版本:Hadoop2.5.0 主机hostname:hadoop01.datacenter.com hadoop目录:/opt...

2018-04-12 16:02:09 486

原创 Hadoop伪分布式部署之yarn和mapreduce

前言mapreduce是hadoop的分布式计算框架,它依赖于hadoop的分布式文件系统hdfs,关于hdfs的部署大家可以参考Hadoop伪分布式部署之hdfs。 mapreduce作为计算引擎,需要依赖于hadoop的分布式资源管理框架yarn,今天我们就来介绍一下yarn和mapreduce的伪分布式部署,相关环境如下: 操作系统:CentOS6.4 Java版本:Oracle...

2018-04-07 22:34:44 724

原创 Hadoop伪分布式部署之hdfs

前言上一节我们介绍了用于部署Hadoop的Linux环境准备,感兴趣的同学可以去看一下Hadoop伪分布式部署之linux环境准备。 这一节我们主要讲伪分布式部署hdfs,相关环境如下 操作系统:CentOS6.4 Java版本:Oracle jdk1.7 Hadoop版本:Hadoop2.5.0 主机hostname:hadoop01.datacenter.comHadoop的...

2018-04-06 17:44:33 1750

原创 Hadoop伪分布式部署之linux环境准备

前言在正式部署hadoop之前,我们需要先对linux系统的网络和java做一些准备工作,确保能够顺利部署和使用hadoop。今天我们就以centOS6.4为例做一个环境配置。1、主机名及映射配置考虑到后面要搭建集群,节点之间的访问最好使用主机名访问,所以现在需要设置一下每个节点的主机名和映射。我们先以一台机器的配置为例,以后我们会讲到多台机器时该如何配置。IP设置查看...

2018-04-06 17:42:49 381

转载 Oracle/Hive/Impala SQL比较

Oracle/Hive/Impala SQL比较 http://blog.csdn.net/mayp1/article/details/51415854

2018-03-09 15:27:32 1179

数据架构文档

数据架构文档,个人备用,希望大家。收藏使用,看看数仓的架构和选型,如何处理离线和实时数据。

2018-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除