大数据
TJU_ZH
拒绝肥宅
展开
-
hadoop基本用法回顾(Combiner和Partitioner实现)
首先说一下Combiner。在使用MapReduce时,以wordcount为例说明,我们假定要统计单词个数,给出一个文档,hadoop的一个block128M,假设一个block上都是储存的单词,这种情况下,在进行计算的时候在一个block上会传输数据量非常非常大的键值对,将这些键值对进行Reduce计算时,会引起很大的网络带宽负载压力。所以hadoop允许对部分map任务先进行一次reduce...原创 2019-03-04 20:18:42 · 338 阅读 · 0 评论 -
三台虚拟机之间配置hadoop分布式系统(HA机制-zookeeper)
用别人的东西好用,自己配的时候,就是坑,这篇博客,记录自己配置三台虚拟机(ha机制,zookeeper和hive)时躺的坑;首先交代一下,虚拟机使用的ubuntu14的lts版本,真心觉得还是centos好用,不会有很多的坑,但是我的台式机配置三台centos,实在没法跑起来,所以就放弃了,偶尔发现有之前大神调教好的ubuntu虚拟机,加上本人本身用ubuntu比较多,果断选择,不负我所望,速度也...原创 2019-03-16 21:34:26 · 1805 阅读 · 2 评论 -
Hive (HQL)基本用法
DDL(data defination language) 1,创建数据库 create database test_db; use test_db; 说明,这个创建语法和mysql一样,创建一个数据库,名字是test_db,在fs中就表现是一个文件夹:/user/hive/warehouse/test_db.db 2,创建一个table,注意Table有点区别,先声明变量,后跟类...原创 2019-03-16 22:26:39 · 308 阅读 · 0 评论 -
hadoop配置hive+mysql/mariaDB(配置中出现的各种问题,类似metastore.HiveMetaException: )
hive是hadoop的一个数据储存、管理工具,在这里,先记录配置过程,后面再讲述原理; 配置hive,hive是一个数据储存管理、管理工具,如果不配置相关的数据库的话,就会使用hive自带的数据库Derby,但是目前常用的数据库是mysql,方便容易使用;所以本次就是配置hive-2.3.4+mysql-5.5+ubuntu14-lts版本; 1.安装mysql:直接ubuntu的三条命令就...原创 2019-03-17 23:50:14 · 704 阅读 · 1 评论 -
MapReduce读取数据异常(NumberFormatException,ArrayIndexOutOfBoundsException)
最近实验有一个需求,分析50G左右的大文本数据,提取出指定字段,序列化对象。我想用MapReduce来进行读取,遂用MapReduce进行统计计算。首先建立bean类主要是记录Item的内部属性,如下所示: package tju.hadoop.mapreduce; import java.io.DataInput; import java.io.DataOutput; import jav...原创 2019-04-10 10:42:15 · 1537 阅读 · 0 评论 -
hadoop格式化(namendoe和resourcemanager的HA格式化)
前面有一篇博客讲了如何在三台虚拟机之间配置nm和rm的高可用性,配置完成后,需要对集群进行格式化。如果关联三台主机关联启动的情况下,需要在三台主机之间配置免密登录。配置免密登录的原理,是秘钥的简单应用,首先说一下原理:秘钥配对有个规定,自己的公钥只有自己的私钥能解开;所以在这里配置免密登录的原理就是把自己的公钥发给想要配置免密登录的主机,在这里假设发送公钥的是A,接收公钥的是B,接收到A的公钥后,...原创 2019-04-12 22:36:24 · 1000 阅读 · 0 评论 -
hadoop启动namenode/datanode无法启动原因之Incompatible clusterIDs问题
首先说明,我的虚拟机是ubuntu14LTS版本的。之前大数据练手一直使用的是实验的集群,最近由于实验室服务器维护,所以便手动安装了伪分布式集群。配置好后,启动完成,每次都没有提示,jps查看时,发现datanode没有启动起来,于是乎找日志。找了大量博客,发现centos和ubuntu的差别很多,而且master的log文件和slaves的日志文件报错原因也不一样。然后先着手解决maste的报错...原创 2019-02-21 15:59:18 · 677 阅读 · 0 评论