自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (5)
  • 收藏
  • 关注

原创 数据仓库分层

为什么要对数据仓库分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的...

2019-07-31 02:38:35 725

原创 多线程常用知识点

多线程并发执行可以提高程序的效率,同时完成多项工作。多线程的应用场景:迅雷下载多个资源,服务器处理多个请求,qq多人视频。并行需要多核cpu,并发不需要。java程序的运行原理:java命令会启动jvm虚拟机,等于启动了一个进程(应用程序)。该进程会启动一个主线程,主线程去调用入口类的main方法。jvm至少启动了主线程和垃圾回收线程,所以是多线程的。多线程程序实现的两种方式:1...

2019-07-25 03:16:20 141

转载 解决数据倾斜的两篇文章

第一篇文章:发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分析,判断是哪些 key 造成的。 选取 key,对数据进行抽样,统计出现的次数,根据出现次数大小排...

2019-07-23 04:11:45 343

转载 解决 spark 中的数据倾斜问题

发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分析,判断是哪些 key 造成的。 选取 key,对数据进行抽样,统计出现的次数,根据出现次数大小排序取 出前几...

2019-07-23 01:41:25 254

转载 动态上下线datanode的方法

namenode 中 hdfs-site.xml 配置 <property> <name>dfs.hosts</name> <value>/ddmap/hadoop-1.0.4/conf/hdfs_include</value> </property> <property> <name...

2019-07-23 00:02:05 926

原创 Kafka 阻塞如何排查?

o 首先获取所有的 topic 列表  bin/kafka-topics.sh --list --zookeeper localhost:2181 o 查看某一个 topic 下的 log 文件和 offset 是不是一样(下 一单之后再次查看有没有变化,应该是 log 文件和 offset 同时加 1 猜对,如果不是同时加 1 说明阻塞)  bin/kafka-run...

2019-07-22 23:54:49 3011

原创 storm 和 spark 的区别

对于 storm 来说: o 建议在那种需要纯实时,不能忍受 1 秒以上延迟的场景下 使用,比如实时金融系统,要求纯实时进行金融交易和分析 o 此外,如果对于实时计算的功能中,要求可靠的事务机制 和可靠性机制,即数据的处理完全精准,一条也不能多,一条也 不能少,也可以考虑使用 Storm o 如果还需要针对高峰低峰时间段,动态调整实时计算程序 的并行度,以最大限度利用集...

2019-07-22 23:32:34 990

转载 hadoop集群添加和格式化namenode的步骤

ClusterID添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode,需要提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。格式化Namenodes第一步: 使用如下命令格式化一个Namenode:> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format [-c...

2019-07-21 22:27:29 3037

转载 [原理型] hadoop1的InputFormat的数据划分、Split调度、数据读取三个问题的浅析

转自http://www.aboutyun.com/thread-6803-1-1.html在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapRed...

2019-07-21 21:30:36 135

转载 hadoop中MapReduce多种join实现实例分析

一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我...

2019-07-21 18:23:56 206

原创 hadoop mapreduce找共同好友问题

找博客共同好友案例1)数据准备以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,G...

2019-07-21 04:50:15 491

原创 Hadoop中的KeyValueInputFormat

一:背景有时候,我们可以不以偏移量和行文本内容来作为数据源到MapTask的输入格式,而使用键值对的形式,使用KeyValueInputFormat就可以完成这种需求。二:技术实现数据源如下操作代码如下:public class MyKeyValueTextInputFormat { // 定义输入路径 private sta...

2019-07-21 04:22:21 806 3

原创 hadoop集群搭建必须用root用户吗

hadoop 3种搭建方式: rpm 安装和起服务都是用root权限 tar.gz 这种模式可以在某个用户下搭建及起服务,但是搭建后 hadoop平台只能这个用户访问,除非你去除kerberos sentry等权限管控组件,这样所有用户都能访问都是没有安全可言 cm 页面搭建 也是用root root用户迁移到非root:因为hadoop的配置文件、环境变量都...

2019-07-20 13:27:49 6085 1

原创 监控hadoop及其节点的两种方法

Hadoop本身自带的HDFS和JobTracker监控页面是最好用的监控页面,简单明了。但是现在想要自己开发一套监控系统,那该怎样去获取Hadoop集群的当前状况呢?网页抓取首先,想到的办法是抓取网页,通过抓取50030和50070页面获得监控的数据。不得不说,这个办法实在是太土了,不到万不得已真的不好意思用。脚本如下:[root@localhost libexec]# ca...

2019-07-19 02:53:03 1603

原创 sqoop数据导入hive 遇到的问题

1.ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;造成的原因:sqoop与hive使用的jackson包的版本...

2019-07-19 02:26:39 1585

转载 hbase性能调优

一、服务端调优1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。2)、hbase.h...

2019-07-18 03:10:17 106

转载 hadoop 重启datanode及动态加入节点

hadoop2.2.0启动子节点适用于子节点单独挂掉然后重启的情况,或者增加子节点的情况。设置好相应的配置后:sbin/hadoop-daemon.shstartdatanode sbin/yarn-daemon.shstartnodemanager即可。执行jps应该可以看到类似:6847DataNode 7574NodeManag...

2019-07-18 01:29:39 3202

原创 大数据知识复习汇总

阶段5:流式计算stormstorm:实时数据计算框架hadoop包含两个框架:hdfs和mapreducestorm和hadoop的区别在于storm只负责计算不负责存储storm框架如何获取数据:spout。spout从任何地方取数据,比如文件,数据库,reids等hadoop用textinputformat获取数据hadoop用mapreduce计算数据,storm用Bolt计...

2019-07-11 00:04:26 691

大数据资料.zip 大数据文档资料

大数据文档资料,包括hadoop,spark,storm,hive,hbase,scala,flume等

2021-10-30

大数据总复习笔记.txt

大数据复习笔记包含了关于离线计算,实时计算的相关框架和知识点

2019-08-22

SQL 数据库面试题__最主要文档_好好总结看看.pdf

这是一个大数据的常见面试题的总结,里面包含hadoop和spark等等的内容

2019-08-12

PLSQL及使用方法文档

PLSQL安装,使用方法文档,以及中文乱码的解决方法。。

2018-03-18

svn使用方法讲义

svn使用方法讲义,讲解了svn的拉代码提交代码等操作。

2018-01-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除