自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Hadoop 配置(自用)

/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.212.b04-0.el7_6.x86_64export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.212.b04-0.el7_6.x86_64export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=$JAVA_H...

2019-06-17 19:59:16 260

原创 Hadoop WordCount示例及源码解析

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;imp...

2019-06-17 19:48:24 323 1

原创 sqoop在导入数据到mysql时,如何让数据不重复导入?若存在数据问题,sqoop如何处理

将hdfs的数据使用sqoop导出到mysql?如果是的话,那数据去重可安排在mysql端处理,也可安排在hdfs上进行处理A:1.使用hive对hdfs上的数据进行去重2.使用sqoop进行数据导出B:1.使用sqoop进行数据daoc2.在mysql上写存储过程进行数据的去重...

2019-06-17 19:23:48 2414

原创 三个datanode,当有一个datanode 出现错误会怎样?

Datanode 以数据块作为容错单位通常一个数据块会备份到三个datanode 上,如果一个datanode 出错,则回去其他备份数据块的datanode 上读取,并且会把这个datanode上的数据块再复制一份以达到备份的效果!...

2019-06-17 19:22:09 3485

原创 ​数据库的三大范式

数据库设计三大范式为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库,必须满足一定的范式。一、基础概念要理解范式,首先必须对知道什么是关系数据库,如果你不知道,我可以简单的不能再简单的说一下:关系数据库就是用二维表来保存数据。表和表之间可以……(省略10W...

2019-06-17 19:19:48 662

原创 List 与 Set 的区别?

List 是可重复集合,Set 是不可重复集合,这两个接口都实现了 Collection 父接口。Map 未继承 Collection,而是独立的接口,Map 是一种把键对象和值对象进行映射的集合,它的每一个元素都包含了一对键对象和值对象,Map 中存储的数据是没有顺序的, 其 key 是不能重复的,它的值是可以有重复的。List 的实现类有 ArrayList,Vector 和 Lin...

2019-06-17 19:13:24 5115

原创 什么是队列?

类似于链表和堆栈,队列也是存储数据的结构。队列中数据进入队列的顺序很重要,一般来说,队列就是一群人或者事物按照排好的顺序等待接受服务或者处理。定义:队列,又称为伫列(queue),是先进先出(FIFO, First-In-First-Out)的线性表。在具体应用中通常用链表或者数组来实现。队列只允许在后端(称为rear)进行插入操作,在前端(称为front)进行删除操作。和堆栈一样的,也有...

2019-06-17 19:10:25 8169

转载 大数据面试集锦

1.MRV1有哪些不足?1)可扩展性(对于变化的应付能力)a)JobTracker内存中保存用户作业的信息b)JobTracker使用的是粗粒度的锁2)可靠性和可用性a)JobTracker失效会多事集群中所有的运行作业,用户需手动重新提交和恢复工作流3)对不同编程模型的支持HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例,但是并不适合所有大型计算,...

2019-06-16 15:24:53 169

转载 HDFS面试题:hdfs 的数据压缩算法?

(1) Gzip 压缩优点:压缩率比较高,而且压缩/解压速度也比较快; hadoop 本身支持,在应用中处理gzip 格式的文件就和直接处理文本一样;大部分 linux 系统都自带 gzip 命令,使用方便.缺点:不支持 split。应用场景: 当每个文件压缩之后在 130M 以内的(1 个块大小内),都可以考虑用 gzip压缩格式。 例如说一天或者一个小时的日志压缩成一个 gzip ...

2019-06-16 15:15:15 371

原创 大数据技术盲点!

1、Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此,想学好大数据,掌握Java基础是必不可少的。2、Linux命令对于大数据开发通常是在Linux环境下进行的,相比Linux操作系统,Windows操作系统是封闭的操作系统,开...

2019-06-16 15:12:26 283

转载 MepReduce面试题:我们在开发分布式计算 job 时,是否可以去掉 reduce()阶段?为什么?

可以,例如我们的集群就是为了存储文件而设计的,不涉及到数据的计算,就可以将mapReduce都省掉。去掉之后就不排序了,不进行shuffle操作了。比如,流量运营项目中的行为轨迹增强功能部分。...

2019-06-16 15:09:32 555

转载 Hadoop框架中怎么来优化

(1)从应用程序角度进行优化。由于mapreduce是迭代逐行解析数据文件的,怎样在迭代的情况下,编写高效率的应用程序,是一种优化思路。(2)对Hadoop参数进行调优。当前hadoop系统有190多个配置参数,怎样调整这些参数,使hadoop作业运行尽可能的快,也是一种优化思路。(3) 从系统实现角度进行优化。这种优化难度是最大的,它是从hadoop实现机制角度,发现当前Hado...

2019-06-16 14:41:15 649

转载 Mapreduce 怎么处理数据倾斜问题?

MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架(Software Framework)...

2019-06-16 14:37:22 1404

转载 Hbase的Row key怎么创建好?列族怎么创建比较好?

hbase存储时,数据按照Rowkey的字典序(byteorder)排序存储。设计key时,要充分排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)一个列族在数据底层是一个文件,所以将经常一起查询的列放到一个列族中,列族尽量少,减少文件的寻址时间。...

2019-06-16 14:34:59 2314

转载 Hive 内部表和外部表的区别?

内部表&外部表未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);区别:内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定;删除...

2019-06-16 14:29:30 185

原创 Java实现非递归二分查找-大数据

import java.util.Scanner;public class BinarySearch { public static void main(String[] args) { int[] src = new int[] { 1, 3, 5, 7, 9 }; System.out.println("请输入要查找的数"); Sc...

2019-06-16 14:21:58 234

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除