Pandaminn-CSDN博客

原创 Hadoop 配置（自用）

/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.212.b04-0.el7_6.x86_64export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.212.b04-0.el7_6.x86_64export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=$JAVA_H...

2019-06-17 19:59:16 263

原创 Hadoop WordCount示例及源码解析

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;imp...

2019-06-17 19:48:24 327 1

原创 sqoop在导入数据到mysql时，如何让数据不重复导入？若存在数据问题，sqoop如何处理

将hdfs的数据使用sqoop导出到mysql？如果是的话，那数据去重可安排在mysql端处理，也可安排在hdfs上进行处理A：1.使用hive对hdfs上的数据进行去重2.使用sqoop进行数据导出B：1.使用sqoop进行数据daoc2.在mysql上写存储过程进行数据的去重...

2019-06-17 19:23:48 2422

原创三个datanode，当有一个datanode 出现错误会怎样?

Datanode 以数据块作为容错单位通常一个数据块会备份到三个datanode 上，如果一个datanode 出错，则回去其他备份数据块的datanode 上读取，并且会把这个datanode上的数据块再复制一份以达到备份的效果!...

2019-06-17 19:22:09 3510

原创数据库的三大范式

数据库设计三大范式为了建立冗余较小、结构合理的数据库，设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库，必须满足一定的范式。一、基础概念要理解范式，首先必须对知道什么是关系数据库，如果你不知道，我可以简单的不能再简单的说一下：关系数据库就是用二维表来保存数据。表和表之间可以……（省略10W...

2019-06-17 19:19:48 666

原创 List 与 Set 的区别?

List 是可重复集合，Set 是不可重复集合，这两个接口都实现了 Collection 父接口。Map 未继承 Collection，而是独立的接口，Map 是一种把键对象和值对象进行映射的集合，它的每一个元素都包含了一对键对象和值对象，Map 中存储的数据是没有顺序的，其 key 是不能重复的，它的值是可以有重复的。List 的实现类有 ArrayList，Vector 和 Lin...

2019-06-17 19:13:24 5117

原创什么是队列?

类似于链表和堆栈，队列也是存储数据的结构。队列中数据进入队列的顺序很重要，一般来说，队列就是一群人或者事物按照排好的顺序等待接受服务或者处理。定义：队列，又称为伫列（queue），是先进先出（FIFO, First-In-First-Out）的线性表。在具体应用中通常用链表或者数组来实现。队列只允许在后端（称为rear）进行插入操作，在前端（称为front）进行删除操作。和堆栈一样的，也有...

2019-06-17 19:10:25 8189

转载大数据面试集锦

1.MRV1有哪些不足？1)可扩展性（对于变化的应付能力）a)JobTracker内存中保存用户作业的信息b)JobTracker使用的是粗粒度的锁2)可靠性和可用性a)JobTracker失效会多事集群中所有的运行作业，用户需手动重新提交和恢复工作流3)对不同编程模型的支持HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例，但是并不适合所有大型计算,...

2019-06-16 15:24:53 173

转载 HDFS面试题：hdfs 的数据压缩算法？

(1) Gzip 压缩优点：压缩率比较高，而且压缩/解压速度也比较快； hadoop 本身支持，在应用中处理gzip 格式的文件就和直接处理文本一样；大部分 linux 系统都自带 gzip 命令，使用方便.缺点：不支持 split。应用场景：当每个文件压缩之后在 130M 以内的（1 个块大小内），都可以考虑用 gzip压缩格式。例如说一天或者一个小时的日志压缩成一个 gzip ...

2019-06-16 15:15:15 374

原创大数据技术盲点！

1、Java编程技术Java编程技术是大数据学习的基础，Java是一种强类型语言，拥有极高的跨平台能力，可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等，是大数据工程师最喜欢的编程工具，因此，想学好大数据，掌握Java基础是必不可少的。2、Linux命令对于大数据开发通常是在Linux环境下进行的，相比Linux操作系统，Windows操作系统是封闭的操作系统，开...

2019-06-16 15:12:26 287

转载 MepReduce面试题：我们在开发分布式计算 job 时,是否可以去掉 reduce()阶段？为什么？

可以，例如我们的集群就是为了存储文件而设计的，不涉及到数据的计算，就可以将mapReduce都省掉。去掉之后就不排序了，不进行shuffle操作了。比如，流量运营项目中的行为轨迹增强功能部分。...

2019-06-16 15:09:32 558

转载 Hadoop框架中怎么来优化

（1）从应用程序角度进行优化。由于mapreduce是迭代逐行解析数据文件的，怎样在迭代的情况下，编写高效率的应用程序，是一种优化思路。（2）对Hadoop参数进行调优。当前hadoop系统有190多个配置参数，怎样调整这些参数，使hadoop作业运行尽可能的快，也是一种优化思路。（3）从系统实现角度进行优化。这种优化难度是最大的，它是从hadoop实现机制角度，发现当前Hado...

2019-06-16 14:41:15 651

转载 Mapreduce 怎么处理数据倾斜问题?

MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：1）MapReduce是一个基于集群的高性能并行计算平台（Cluster Infrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2）MapReduce是一个并行计算与运行软件框架（Software Framework）...

2019-06-16 14:37:22 1407

转载 Hbase的Row key怎么创建好？列族怎么创建比较好？

hbase存储时，数据按照Rowkey的字典序(byteorder)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)一个列族在数据底层是一个文件，所以将经常一起查询的列放到一个列族中，列族尽量少，减少文件的寻址时间。...

2019-06-16 14:34:59 2321

转载 Hive 内部表和外部表的区别?

内部表&外部表未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定；删除...

2019-06-16 14:29:30 191

原创 Java实现非递归二分查找-大数据

import java.util.Scanner;public class BinarySearch { public static void main(String[] args) { int[] src = new int[] { 1, 3, 5, 7, 9 }; System.out.println("请输入要查找的数"); Sc...

2019-06-16 14:21:58 237

Pandaminn的博客