2019年07月_asd1456732891

10月 09月 08月 07月 04月 03月

原创数据仓库分层

为什么要对数据仓库分层？用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；如果不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的...

2019-07-31 02:38:35 725

原创多线程常用知识点

多线程并发执行可以提高程序的效率，同时完成多项工作。多线程的应用场景：迅雷下载多个资源，服务器处理多个请求，qq多人视频。并行需要多核cpu，并发不需要。java程序的运行原理：java命令会启动jvm虚拟机，等于启动了一个进程（应用程序）。该进程会启动一个主线程，主线程去调用入口类的main方法。jvm至少启动了主线程和垃圾回收线程，所以是多线程的。多线程程序实现的两种方式：1...

2019-07-25 03:16:20 141

转载解决数据倾斜的两篇文章

第一篇文章：发现数据倾斜的时候，不要急于提高 executor 的资源，修改参数或是修改程序，首先要检查数据本身，是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务，首先要对 key 进行抽样分析，判断是哪些 key 造成的。选取 key，对数据进行抽样，统计出现的次数，根据出现次数大小排...

2019-07-23 04:11:45 343

转载解决 spark 中的数据倾斜问题

发现数据倾斜的时候，不要急于提高 executor 的资源，修改参数或是修改程序，首先要检查数据本身，是否存在异常数据。  1、数据问题造成的数据倾斜  找出异常的 key  如果任务长时间卡在最后最后 1 个(几个)任务，首先要对 key 进行抽样分析，判断是哪些 key 造成的。选取 key，对数据进行抽样，统计出现的次数，根据出现次数大小排序取出前几...

2019-07-23 01:41:25 254

转载动态上下线datanode的方法

namenode 中 hdfs-site.xml 配置 <property> <name>dfs.hosts</name> <value>/ddmap/hadoop-1.0.4/conf/hdfs_include</value> </property> <property> <name...

2019-07-23 00:02:05 926

原创 Kafka 阻塞如何排查?

o 首先获取所有的 topic 列表  bin/kafka-topics.sh --list --zookeeper localhost:2181 o 查看某一个 topic 下的 log 文件和 offset 是不是一样（下一单之后再次查看有没有变化，应该是 log 文件和 offset 同时加 1 猜对，如果不是同时加 1 说明阻塞）  bin/kafka-run...

2019-07-22 23:54:49 3011

原创 storm 和 spark 的区别

对于 storm 来说： o 建议在那种需要纯实时，不能忍受 1 秒以上延迟的场景下使用，比如实时金融系统，要求纯实时进行金融交易和分析 o 此外，如果对于实时计算的功能中，要求可靠的事务机制和可靠性机制，即数据的处理完全精准，一条也不能多，一条也不能少，也可以考虑使用 Storm o 如果还需要针对高峰低峰时间段，动态调整实时计算程序的并行度，以最大限度利用集...

2019-07-22 23:32:34 990

转载 hadoop集群添加和格式化namenode的步骤

ClusterID添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode，需要提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。格式化Namenodes第一步: 使用如下命令格式化一个Namenode：> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format [-c...

2019-07-21 22:27:29 3037

转载 [原理型] hadoop1的InputFormat的数据划分、Split调度、数据读取三个问题的浅析

转自http://www.aboutyun.com/thread-6803-1-1.html在执行一个Job的时候，Hadoop会将输入数据划分成N个Split，然后启动相应的N个Map程序来分别处理它们。数据如何划分？Split如何调度（如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上）？划分后的数据又如何读取？这就是本文所要讨论的问题。先从一张经典的MapRed...

2019-07-21 21:30:36 135

转载 hadoop中MapReduce多种join实现实例分析

一、概述对于RDBMS中的join操作大伙一定非常熟悉，写sql的时候要十分注意细节，稍有差池就会耗时巨久造成很大的性能瓶颈，而在Hadoop中使用MapReduce框架进行join的操作时同样耗时，但是由于hadoop的分布式设计理念的特殊性，因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析，并且根据我...

2019-07-21 18:23:56 206

原创 hadoop mapreduce找共同好友问题

找博客共同好友案例1）数据准备以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,G...

2019-07-21 04:50:15 491

原创 Hadoop中的KeyValueInputFormat

一：背景有时候，我们可以不以偏移量和行文本内容来作为数据源到MapTask的输入格式，而使用键值对的形式，使用KeyValueInputFormat就可以完成这种需求。二：技术实现数据源如下操作代码如下：public class MyKeyValueTextInputFormat { // 定义输入路径 private sta...

2019-07-21 04:22:21 806 3

原创 hadoop集群搭建必须用root用户吗

hadoop 3种搭建方式： rpm 安装和起服务都是用root权限 tar.gz 这种模式可以在某个用户下搭建及起服务，但是搭建后 hadoop平台只能这个用户访问，除非你去除kerberos sentry等权限管控组件，这样所有用户都能访问都是没有安全可言 cm 页面搭建也是用root root用户迁移到非root：因为hadoop的配置文件、环境变量都...

2019-07-20 13:27:49 6085 1

原创监控hadoop及其节点的两种方法

Hadoop本身自带的HDFS和JobTracker监控页面是最好用的监控页面，简单明了。但是现在想要自己开发一套监控系统，那该怎样去获取Hadoop集群的当前状况呢？网页抓取首先，想到的办法是抓取网页，通过抓取50030和50070页面获得监控的数据。不得不说，这个办法实在是太土了，不到万不得已真的不好意思用。脚本如下：[root@localhost libexec]# ca...

2019-07-19 02:53:03 1603

原创 sqoop数据导入hive 遇到的问题

1.ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;造成的原因：sqoop与hive使用的jackson包的版本...

2019-07-19 02:26:39 1585

转载 hbase性能调优

一、服务端调优1、参数配置 1）、hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，或者出现OutOfMemory，因此该值不是越大越好。2）、hbase.h...

2019-07-18 03:10:17 106

转载 hadoop 重启datanode及动态加入节点

hadoop2.2.0启动子节点适用于子节点单独挂掉然后重启的情况，或者增加子节点的情况。设置好相应的配置后：sbin/hadoop-daemon.shstartdatanode sbin/yarn-daemon.shstartnodemanager即可。执行jps应该可以看到类似：6847DataNode 7574NodeManag...

2019-07-18 01:29:39 3202

原创大数据知识复习汇总

阶段5：流式计算stormstorm:实时数据计算框架hadoop包含两个框架：hdfs和mapreducestorm和hadoop的区别在于storm只负责计算不负责存储storm框架如何获取数据：spout。spout从任何地方取数据，比如文件，数据库，reids等hadoop用textinputformat获取数据hadoop用mapreduce计算数据，storm用Bolt计...

2019-07-11 00:04:26 691