大数据
asd1456732891
这个作者很懒,什么都没留下…
展开
-
启动hive时报Access denied for user 'root'@'xxx'错误
将设置远程访问的grant all privileges on *.* to 'root' @'%' identified by '密码'; 中的%改成你具体的主机名(也就是hostname)。原创 2018-12-03 05:30:09 · 1614 阅读 · 0 评论 -
Kafka 阻塞如何排查?
o 首先获取所有的 topic 列表 bin/kafka-topics.sh --list --zookeeper localhost:2181 o 查看某一个 topic 下的 log 文件和 offset 是不是一样(下 一单之后再次查看有没有变化,应该是 log 文件和 offset 同时加 1 猜对,如果不是同时加 1 说明阻塞) bin/kafka-run...原创 2019-07-22 23:54:49 · 2970 阅读 · 0 评论 -
动态上下线datanode的方法
namenode 中 hdfs-site.xml 配置 <property> <name>dfs.hosts</name> <value>/ddmap/hadoop-1.0.4/conf/hdfs_include</value> </property> <property> <name...转载 2019-07-23 00:02:05 · 906 阅读 · 0 评论 -
解决 spark 中的数据倾斜问题
发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。 1、数据问题造成的数据倾斜 找出异常的 key 如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分析,判断是哪些 key 造成的。 选取 key,对数据进行抽样,统计出现的次数,根据出现次数大小排序取 出前几...转载 2019-07-23 01:41:25 · 241 阅读 · 0 评论 -
解决数据倾斜的两篇文章
第一篇文章:发现数据倾斜的时候,不要急于提高 executor 的资源,修改参数 或是修改程序,首先要检查数据本身,是否存在异常数据。 1、数据问题造成的数据倾斜 找出异常的 key 如果任务长时间卡在最后最后 1 个(几个)任务,首先要对 key 进行 抽样分析,判断是哪些 key 造成的。 选取 key,对数据进行抽样,统计出现的次数,根据出现次数大小排...转载 2019-07-23 04:11:45 · 328 阅读 · 0 评论 -
Spark Streaming与Storm对比
对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫秒级 秒级 吞吐量...转载 2019-08-08 05:32:36 · 160 阅读 · 0 评论 -
mapreduce wordcount完整代码
map:package cn.itcast.mapreduce;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache...原创 2019-08-13 01:55:04 · 877 阅读 · 0 评论 -
mapreduce自定义数据类型代码实现
package cn.itcast.mapreduce;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.WritableComparable;...原创 2019-08-13 02:43:52 · 130 阅读 · 0 评论 -
Spark之RDD弹性特性
RDD作为弹性分布式数据集,它的弹性具体体现在以下七个方面。1.自动进行内存和磁盘数据存储的切换 Spark会优先把数据放到内存中,如果内存实在放不下,会放到磁盘里面,不但能计算内存放下的数据,也能计算内存放不下的数据。如果实际数据大于内存,则要考虑数据放置策略和优化算法。当应用程序内存不足时,Spark应用程序将数据自动从内存存储切换到磁盘存储,以保障其高效运行。2.基于Linea...转载 2019-08-29 06:55:08 · 344 阅读 · 0 评论 -
大数据面试题汇总
1.where,group by谁先执行总结一下hive语句的执行顺序。在hive的执行语句当中的执行查询的顺序:这是一条sql:select … from … where … group by … having … order by …执行顺序:from … where … select … group by … having … order by …其实总结hive的执行顺序也...原创 2019-09-02 05:03:47 · 530 阅读 · 1 评论 -
storm 和 spark 的区别
对于 storm 来说: o 建议在那种需要纯实时,不能忍受 1 秒以上延迟的场景下 使用,比如实时金融系统,要求纯实时进行金融交易和分析 o 此外,如果对于实时计算的功能中,要求可靠的事务机制 和可靠性机制,即数据的处理完全精准,一条也不能多,一条也 不能少,也可以考虑使用 Storm o 如果还需要针对高峰低峰时间段,动态调整实时计算程序 的并行度,以最大限度利用集...原创 2019-07-22 23:32:34 · 977 阅读 · 0 评论 -
数据仓库分层
为什么要对数据仓库分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的...原创 2019-07-31 02:38:35 · 702 阅读 · 0 评论 -
大数据知识复习汇总
阶段5:流式计算stormstorm:实时数据计算框架hadoop包含两个框架:hdfs和mapreducestorm和hadoop的区别在于storm只负责计算不负责存储storm框架如何获取数据:spout。spout从任何地方取数据,比如文件,数据库,reids等hadoop用textinputformat获取数据hadoop用mapreduce计算数据,storm用Bolt计...原创 2019-07-11 00:04:26 · 661 阅读 · 0 评论 -
sqoop数据导入hive 遇到的问题
1.ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;造成的原因:sqoop与hive使用的jackson包的版本...原创 2019-07-19 02:26:39 · 1566 阅读 · 0 评论 -
监控hadoop及其节点的两种方法
Hadoop本身自带的HDFS和JobTracker监控页面是最好用的监控页面,简单明了。但是现在想要自己开发一套监控系统,那该怎样去获取Hadoop集群的当前状况呢?网页抓取首先,想到的办法是抓取网页,通过抓取50030和50070页面获得监控的数据。不得不说,这个办法实在是太土了,不到万不得已真的不好意思用。脚本如下:[root@localhost libexec]# ca...原创 2019-07-19 02:53:03 · 1585 阅读 · 0 评论 -
hadoop集群搭建必须用root用户吗
hadoop 3种搭建方式: rpm 安装和起服务都是用root权限 tar.gz 这种模式可以在某个用户下搭建及起服务,但是搭建后 hadoop平台只能这个用户访问,除非你去除kerberos sentry等权限管控组件,这样所有用户都能访问都是没有安全可言 cm 页面搭建 也是用root root用户迁移到非root:因为hadoop的配置文件、环境变量都...原创 2019-07-20 13:27:49 · 6032 阅读 · 1 评论 -
hadoop 重启datanode及动态加入节点
hadoop2.2.0启动子节点适用于子节点单独挂掉然后重启的情况,或者增加子节点的情况。设置好相应的配置后:sbin/hadoop-daemon.shstartdatanode sbin/yarn-daemon.shstartnodemanager即可。执行jps应该可以看到类似:6847DataNode 7574NodeManag...转载 2019-07-18 01:29:39 · 3137 阅读 · 0 评论 -
hbase性能调优
一、服务端调优1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。2)、hbase.h...转载 2019-07-18 03:10:17 · 96 阅读 · 0 评论 -
Hadoop中的KeyValueInputFormat
一:背景有时候,我们可以不以偏移量和行文本内容来作为数据源到MapTask的输入格式,而使用键值对的形式,使用KeyValueInputFormat就可以完成这种需求。二:技术实现数据源如下操作代码如下:public class MyKeyValueTextInputFormat { // 定义输入路径 private sta...原创 2019-07-21 04:22:21 · 795 阅读 · 3 评论 -
hadoop mapreduce找共同好友问题
找博客共同好友案例1)数据准备以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,G...原创 2019-07-21 04:50:15 · 480 阅读 · 0 评论 -
hadoop中MapReduce多种join实现实例分析
一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapReduce框架对表之间的join操作的几种实现方式进行详细分析,并且根据我...转载 2019-07-21 18:23:56 · 196 阅读 · 0 评论 -
[原理型] hadoop1的InputFormat的数据划分、Split调度、数据读取三个问题的浅析
转自http://www.aboutyun.com/thread-6803-1-1.html在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapRed...转载 2019-07-21 21:30:36 · 123 阅读 · 0 评论 -
hadoop集群添加和格式化namenode的步骤
ClusterID添加了一个新的标识符ClusterID用于标识集群中所有的节点。当格式化一个Namenode,需要提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。格式化Namenodes第一步: 使用如下命令格式化一个Namenode:> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format [-c...转载 2019-07-21 22:27:29 · 3018 阅读 · 0 评论 -
Spark Streaming使用Kafka保证数据零丢失
spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件:数据输入需要可靠的sources和可靠的receivers应用metadata必须通过应用driver checkpointWAL(write ahead log)可靠的sources和receiversspark streaming可以通过多种方式作为数据sources(包括kafka)...转载 2019-09-04 22:25:02 · 494 阅读 · 0 评论