Hadoop学习之路
文章平均质量分 53
炽天使YRLT
这个作者很懒,什么都没留下…
展开
-
大数据业务场景
2、 借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;2,计算:借助mapreduce计算框架对原始数据进行转换,生成的数据以分区表形式。3、 需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;5、 需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用。1,上传:通过Hadoop先将原始数据同步到HDFS上;4、 将明细数据进行复杂的统计分析,得到结果报表信息;1、 通过Hadoop先将原始数据同步到HDFS上;...原创 2022-08-03 22:00:04 · 531 阅读 · 0 评论 -
Exception in thread “main“ java.lang.UnsatisfiedLinkError:hadoop跑程序错误
这个错误是环境错误,比如你在Windows上配置的环境是2.6.0,而你在IDEA模拟的时候却使用Hadoop3.0.0,就会报这个错误,因为是本地跑,所以版本需要匹配。原创 2022-07-28 11:25:06 · 2557 阅读 · 2 评论 -
Hadoop倒排索引程序
Hadoop跑倒排索引程序原创 2022-07-22 11:11:54 · 338 阅读 · 0 评论 -
Please initialize the log4j system properly.
log4j.properties文件配置。必须要放入resources下。原创 2022-07-22 10:44:36 · 257 阅读 · 0 评论 -
Hadoop跑程序时pom.xml文件基础配置
hadoop程序pom.xml配置文件。原创 2022-07-22 10:42:45 · 904 阅读 · 0 评论 -
hadoop程序实例,从新建到上传Hadoop集群跑成功
版本根据自己所使用的情况进行填写,但是修改版本后可能出现错误。包括依赖上的错误,还有pom.xml文件开头报错:maven仓库中的出现了许多.LastUpdated结尾的文件。这是由于某些原因导致文件未下载完整,所以依赖无法正确引用。cmd加入maven仓库执行下面命令,删除所有未完整下载的文件。然后去项目中,maven – update project即可4.在ide中跑通后,打成jar包idea的打包方式可能不同,去终端,用命令行打包也行1,将需要打成jar包的java文件编译成cla原创 2022-07-13 10:51:04 · 438 阅读 · 1 评论 -
启动hive有诸多问题如下
org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !原创 2022-04-08 15:12:23 · 1975 阅读 · 0 评论 -
Hadoop集群搭建
集群搭建准备1.1集群规划主机名称 软件 IP地址 功能1.2服务器准备本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本: Vmware 11.0 Centos 6.5 64bit1.2.1网络环境准备 采用NAT方式联网 网关地址:192.168.42.1 3个服务器节点IP地址:192.168.80.128、192.168.80.129、192.168.80.130 子网掩码:255.255.255.01.2.2服务器系统设置 添加HADOOP用原创 2021-03-02 21:33:33 · 104 阅读 · 0 评论 -
zookeeper集群搭建
• Zookeeper standalone operation• Zookeeper伪集群搭建• 实战:Zookeeper 集群搭建1.简介zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper是以Fast Paxos算法为基础的,Paxos 算法存在活锁的问题,即当有多个propose原创 2021-03-01 21:10:32 · 290 阅读 · 0 评论 -
MapReduce的shuffle机制
MapReduce原理篇1.1 MapReduce的shuffle机制1.1.1 概述: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle; shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分区和排序;1.1.2 主要流程:Shuffle缓存流程:shu.原创 2020-11-23 19:42:29 · 1231 阅读 · 0 评论 -
hadoop报异常java.lang.IllegalArgumentException: URI has an authority component
hdfs-site.xml配置文件中dfs.namenode.name.dir的配置有问题,或者没进行配置错误配置:1. <property> 2. <name>dfs.namenode.name.dir</name> 3. <value>file://data01/hadoop/dfs/name</value> 4. </property> 正确配置:<property> 1.原创 2020-11-16 22:05:32 · 1240 阅读 · 0 评论 -
NameNode: Permission denied&无法启动Hadoop解决方法
NameNode: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).就是这个原因这个问题的出现主要是因为没有给authorized_keys授权,解决方法如下:把产生的公钥文件放置到authorized_keys文件中,命令如下:[root@node1 etc ]# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys[root@node1 etc ]# c原创 2020-11-16 22:03:51 · 11090 阅读 · 3 评论 -
文献检索方法
自己之前也是不太懂得怎么检索文献,通过学习,现在大致有些了解,在这里谈一谈我的认识。逻辑运算符AND , OR , NOT这三个运算符对我们进行高级检索非常重要,学过编程语言的应该都知道,这三个运算符是什么意思,以及什么作用AND:与运算符,如Hadoop ADN data mining ,表示同时查询包含Hadoop和data mining关键字的文献,即相关文献包含了这两个内容OR: 或运算符,如(Hadoop OR spark) AND data mining ,表示Hadoop和spark原创 2020-11-07 10:53:19 · 2623 阅读 · 0 评论