归档的博客

技术博客

数据结构与算法----------目录

一、数据结构 1.1 数据结构---------数组 1.2 数据结构---------链表 1.3 数据结构---------二叉树 二、算法 2.1 最通俗易懂的--------时间复杂度 2.2 简单介绍--------空间复杂度 2.3 稳定排序和不稳定排序 2.4 数据结...

2019-02-05 13:56:31

阅读数 1247

评论数 0

大数据之Hadoop目录

说在前面的话 适合有java基础、Linux基础、具有一定java开发经验的人! 参考的资料 Hadoop官方参考资料:https://blog.csdn.net/qq_39657909/article/details/84581147 如果你想学习...

2018-12-06 09:21:27

阅读数 2375

评论数 0

CDH5.15.0安装

CDH5.15.0安装文档 一、基础环境 1.1 软件环境 NO. 软件名称 版本 1. 操作系统 Centos7.6 64 位 2. JDK jdk-8u191-linux-x64 3. Clouder Manager 5.15.0 4. CDH 5.15.0 ...

2019-06-16 20:14:42

阅读数 16

评论数 0

大数据权限管理sentry与Kerberos概述

大数据权限管理sentry与Kerberos概述 常见的解决方案分为两部分 1. 管理用户身份*即用户身份认证 2. 用户身份和权限的映射关系管理 即授权 而Hadoop中常见的开源解决方案是Kerberos(认证)+LDAP(授权),LDAP则是授权的环节,常见的解决方案有Ranger,Sen...

2019-05-24 17:29:25

阅读数 31

评论数 0

ReduceTask工作机制

ReduceTask工作机制一、图解二、设置ReduceTask并行度(个数)三、某些需要注意的事项 一、图解 (1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。 (2)Merge阶段:在远...

2019-05-20 23:28:24

阅读数 27

评论数 0

Flink概述

Flink概述1.技术的演变1.1 Hadoop生态1.2 Storm的解决的问题1.3 Spark Streaming为什么出现?1.4 Flink的产生1.5 简单图解 1.技术的演变 在大数据计算中计算框架也在随着时间和需求不断的更新 1.1 Hadoop生态 14年Hadoop的MR计算框...

2019-05-04 19:44:11

阅读数 39

评论数 0

ReduceTask阶段

ReduceTask阶段1.图解2.数据输出介绍3.设置ReduceTask并行度(个数)4.注意事项 1.图解 Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。 Merge阶段:在远程拷贝数据...

2019-04-19 23:12:41

阅读数 16

评论数 0

阿里大数据开发工程师第一轮视频面总结

4.8晚,有幸得到阿里面试。面试官早上跟我打电话,问什么时候有时间,咱们视屏面试下,后来确定下来的时间是晚上7:30. 7.30面试官准时上线,然后我找一个安静的地方,开始了这场面试。 首先是自我介绍 2-3分钟,然后问了我现在在用什么技术,最会什么,然后结合我说的问了一些问题。 1. sp...

2019-04-10 12:05:14

阅读数 41

评论数 0

Spark Streaming实现offset在Zookeeper的读取

Spark Streaming实现offset在Zookeeper的读取1. KafkaCluster的创建2. 从Zookeeper读取offset3.Offset写入Zookeeper 1. KafkaCluster的创建 public static KafkaCluster getKafka...

2019-03-31 12:25:09

阅读数 77

评论数 0

spark submit参数介绍

你可以通过spark-submit --help或者spark-shell --help来查看这些参数。 使用格式: ./bin/spark-submit \ --class <main-class> \ --master <master-ur...

2019-03-28 00:00:33

阅读数 37

评论数 0

垃圾回收(GC)机制

垃圾回收(GC)机制1.为什么会存在GC?2.图解堆内存3. Minor GC3.1 针对什么?3.2 什么时候触发?3.3 做了什么?3.4 具体过程3.5 对于用可达性分析法搜索不到的对象,GC并不一定会回收该对象4. Full GC4.1 什么时候触发?4.2 针对什么?5.Minor GC...

2019-03-19 20:37:34

阅读数 627

评论数 0

设置IP地址

设置IP地址1.确认网络连接模式为NAT模式2.设置网络连接IP 1.确认网络连接模式为NAT模式 2.设置网络连接IP 1.系统=》首选项=》网络连接 2.选中Auto eth1 =》点击删除=》点击删除 3.选中eth0=》点击编辑 4.选中自动连接=》IPv4...

2019-03-15 17:47:05

阅读数 854

评论数 0

JVM堆详解

JVM堆详解1.图解堆组成2.新生区2.1 组成2.2 简介2.3 常见错误3.养老区4.永久区 1.图解堆组成 2.新生区 2.1 组成 伊甸区(Eden Space) 幸存者区:幸存0区(Survivor 0 Space)或者叫做from space;幸存1区(Survivo...

2019-03-15 17:46:13

阅读数 838

评论数 0

Hive常用参数

Hive常用参数 (常用的一些可设置参数,具体数值按照需要进行调整!) SET hive.optimize.skewjoin = true; SET hive.skewjoin.key = 100000; SET hive.exec.dynamic.partition.mode = non...

2019-03-12 19:30:13

阅读数 1006

评论数 0

Shuffle机制

Shuffle机制1.图解 1.图解

2019-03-12 13:47:51

阅读数 1008

评论数 0

第二种切片机制-----combineTextInputFormat切片

combineTextInputFormat切片1.切片机制2.虚拟存储过程3.切片过程4. CombineTextInputFormat案例实操 1.切片机制 使用场景 CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样...

2019-03-11 08:28:42

阅读数 1564

评论数 0

第一种切片机制——FileInputFormat

第一种切片机制——FileInputFormat1.切片的机制 1.切片的机制 简单地按照文件的内容长度进行切片 切片大小,默认等于Block大小 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片 ...

2019-03-10 00:06:05

阅读数 1832

评论数 0

UML(Unified Modeling Language)统一建模语言

UML(Unified Modeling Language)统一建模语言 1.UML工具 Pational Rose2003, Rose7.0(特点:特别好用,功能强大,漂亮;太大了,收费昂贵) StarUML(特点:轻巧,免费,开源,一般好用,不漂亮) EA(特点:轻巧,收费,漂亮,...

2019-03-07 17:22:31

阅读数 1973

评论数 0

在MySQL登录时出现Access denied for user 'root'@'localhost' (using password: YES) 拒绝访问

ERROR 1045 (28000): Access denied for user'root'@'localhost' (using password: YES)其解决方法如下:#service mysql stop#mysqld_safe --user=mysql --skip-grant-t...

2019-03-04 11:15:24

阅读数 1477

评论数 0

Flume 监控kafka主题写HDFS小结

Flume 监控kafka主题写HDFS小结 需求采集Flume采集kafka主题内容,往Hadoop集群上写HDFS,该机器没有安装Hadoop 这里的Flume版本是1.7.0,Hadoop版本是2.7.2,kafka版本是0.11.0.2 把Hadoop集群的hdfs-site.xml、co...

2019-03-03 21:48:09

阅读数 1493

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭