hadoop
RayBreslin
大数据开发、设计企业应用
展开
-
(转)Error: java.io.IOException: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block:
【转载原因:hive中查询时报错,同样错误。然后,经确认确实是datanode宕掉了。】【转载原文:https://blog.csdn.net/abc_123_abc_123_/article/details/103087254】hadoop 报错:Error: java.io.IOException: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-1020558569-1xx.1xx.xx.x转载 2021-02-22 22:43:13 · 1241 阅读 · 0 评论 -
HDFS API : rename重命名hdfs文件失败原因
一、问题描述通过spark-shell启动,使用hdfs的重命名api:rename修改文件名称,时而报错。scala> import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.conf.Configurationscala> import org.apache.hadoop.fs.{FileSystem, Path}import org.apache.hadoop.fs.{FileSystem,原创 2020-11-11 23:06:20 · 2657 阅读 · 0 评论 -
Spark-shell操作hdfs对应api
一、实现功能hdfs相关java或者scala的api验证需要idea搭建环境,比较复杂。如果,有spark环境,那么可以通过spark-shell方法实现hdfs相关api验证。二、实现方法1.先通过spark-shell进入shellspark-shell2.然后导入对应包,后续即可通过对应api实现验证(1)修改名字scala> import org.apache.hadoop.conf.Configurationscala> import org.apache.hado原创 2020-11-11 22:16:00 · 342 阅读 · 1 评论 -
(转)Spark与Hadoop的shuffle的异同
【转载原因:两者shuffle的异同,讲解非常全面,收获良多~】【转载原文:https://blog.csdn.net/WYpersist/article/details/79982627】 Apache Spark 的 Shuffle 过程与 Apache Hadoop 的 Shuffle 过程有着诸多类似,一些概念可直接套用,例如,Shuffle 过程中,提供数据的一端,被称作 M...转载 2020-03-03 07:38:48 · 513 阅读 · 0 评论 -
Hadoop远程调试删除文件报错:org.apache.hadoop.security.AccessControlException: Permission denied: user=
一、问题描述使用Idea操作hdfs上文件,进行文件删除,结果报错因为用户名没有权限,而无法操作对应文件[ERROR] 09:13:32.239 [main] ERROR com.hadoop.hdfs.HdfsApi - HdfsApi delete IOExceptionorg.apache.hadoop.security.AccessControlException: Permis...原创 2020-02-29 09:44:18 · 1490 阅读 · 1 评论 -
CDH 删除文件报错:org.apache.hadoop.security.AccessControlException: Permission denied
一、问题描述CDH集群,在本地调试删除Hadoop文件,删除代码: public boolean deletehDFS(String path, FileSystem fs) throws IOException { // 1.path例子:hdfs://cdh1:8020/upload/test/2019/1/16/6ba54bb41a9940548173f771...原创 2020-02-22 10:46:13 · 467 阅读 · 0 评论 -
(转)Hadoop学习笔记(三)漫画解读HDFS读写原理
【转载原因:写入原理,很清晰,很详细!】【转载原文:https://blog.csdn.net/u013411339/article/details/89036191】首先看看出场的角色,第一个是client客户端,用来发起读写请求,读取HDFS上的文件或往HDFS中写文件;第二个是Namenode,唯一的一个,会协调所有客户端发起的请求;第三个是DataNode,负责数据存储...转载 2019-12-23 10:58:29 · 285 阅读 · 0 评论 -
Hadoop(3):Shuffle过程详解
一、Shuffle功能Shuffle发生的阶段是map的输出到达reduce输入之前的中间阶段,其作用将Map端输入进行打乱重组,然后,输出到Reduce端。Shuffle由map shuffle和reduce shuffle组成。二、步骤详解以wordcount 单词统计1.读取read.txt文件Hadoop sparkspark2.读取文件到输入map的数据格式...原创 2019-04-12 00:41:25 · 393 阅读 · 0 评论 -
Hadoop(2):MR日志聚合以及服务开启
一、日志服务:1、历史服务器作用: 查看已经运行完成的应用记录。需要指定historyserver的地址,内部和外部通信端口号,如果不指定默认是本机。historyserver是一个轻量级的服务,可以部署在任意一台节点上。必须开启日志服务才可以看聚合(保存)下来的日志。2、配置(在mapred-site.xml中): 注意:这里的端口号不能随便修改<pr...原创 2019-04-12 00:35:09 · 623 阅读 · 0 评论 -
客户端调试hadoop报错:Permission denied: user=Lenovo, access=READ_EXECUTE, inode="/tmp/.
一、问题描述使用hadoop的java api访问hdfs,读取hdfs上所有文件信息。但是因为没有访问权限,报错:Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=Lenovo, access=READ_EXECUTE, inode=...原创 2019-04-29 18:59:21 · 3073 阅读 · 1 评论 -
(转)MapReduce shuffle过程详解
【转自xidianycy大神的:《MapReduce shuffle过程详解》,原文连接:https://blog.csdn.net/u014374284/article/details/49205885】一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成:Map、shuffle、Reduce。Map是映射,负责数据的过滤分法,将原始数据转化为键值对;R...转载 2019-04-14 22:46:37 · 237 阅读 · 0 评论 -
Hadoop(4):MapReduce on Yarn工作流程
一、关键概念1.Client客户端作用:提交mapreduce任务的电脑。2.Resource manager作用:用于管理整个集群资源调度分配,包含Applications manager和Resource Scheduler。(1)Applications manager:管理每个提交任务,创建每个任务的Application master。(2)Resource Sc...原创 2019-04-14 18:23:27 · 998 阅读 · 0 评论 -
大数据调试环境配置(2):IDEA外部链接Hadoop调试环境配置以及部署jar包到服务器
一、目的远程客户端编写MapReduce代码,并且配置环境进行调试。二、环境1.IDEA2.JDK1.83.CDH 5.7.0三、步骤1.创建Maven项目2.加载对应CDH需求依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/PO...原创 2019-04-13 10:27:52 · 770 阅读 · 0 评论 -
(转)在Windows下开发hadoop的MapReduce的坑!!!
本文转自:lsr40大神的《在Windows下开发hadoop的MapReduce的坑》,地址https://blog.csdn.net/lsr40/article/details/77868113,eclipse配置hadoop调试,以及错误处理都很详细!写在文前,本人菜鸡,写个文章,单纯为了记录下心路历程还有填坑,如果有说错的地方,还望大神指正!今天记录的是在Window...转载 2019-04-13 08:28:39 · 317 阅读 · 0 评论 -
HDFS 常用shell命令总结:2.+版本hadoop
1.内容描述: HDFS常用的shell命令,本次总结针对2.0+以上的版本的Hadoop。 2.命令:(1)查看目录bin/hdfs dfs -ls -R /(2)创建目录(创建多层)bin/hdfs dfs -mkdir -p /user/hive/warehouse(3)付给权限bin/hdfs dfs -chmod g+w /user/h...原创 2018-09-29 23:57:15 · 789 阅读 · 0 评论 -
大数据Hadoop生态常用端口号
1.HDFS50070:HDFS WEB UI端口8020 : HDFS 内部端口8088 : Yarn 的WEB UI 接口8032 : ResourceManager的applications manager(ASM)端口2.Hive 9083 : metastore服务默认监听端口3.Hbase 60010:master的WEB UI端口 ...原创 2018-10-23 19:39:55 · 2272 阅读 · 0 评论 -
阿里云搭建大数据平台(3):安装JDK和Hadoop伪分布环境
一、安装jdk1.卸载Linux自带的JDKrpm -qa|grep jdk #查询原始JDKyum -y remove <旧JDK>2.解压缩tar -zxvf /opt/softwares/jdk-8u151-linux-x64.tar.gz -C /opt/modules/3.将Java添加至环境变量vi /etc/profile添加...原创 2018-10-30 18:41:08 · 1546 阅读 · 0 评论 -
错误(为解决):yarn的wordcount任务卡在INFO mapreduce.Job: Running job: job_1541084101495_0003
1.问题描述:配置好,yarn的日志聚合功能。运行yarn的wordcount任务,发生错误。一直卡在INFO mapreduce.Job,无法运行。2.现象[hadoop@hadoop hadoop-2.6.0-cdh5.15.0]yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.15.0.ja...原创 2018-11-01 23:59:51 · 1454 阅读 · 2 评论 -
Hive(29):hive/hadoop的压缩格式选择
一、功能实现1.将存储数据压缩,减少存储空间。2.hive的存储格式和压缩格式区别(如下图)二、实现步骤1.设置hadoop运行的任务的参数(1)配置参数 (a)永久修改:在配置文件中修改:mapred-site.xml 改为之后重启hadoop (b)临时修改:在执行中设置参数:-D 表示指定运行的参数,格式:key=vlaue(2)执行使用的命...原创 2018-11-14 08:12:45 · 236 阅读 · 0 评论 -
sqoop(5):export之hbaseTomysql
一、实现功能1.目的:使用sqoop将hbase中数据导入到mysql中,sqoop没有这个直接功能,需要hive做一个中间转换。2.环境:hadoop2.7.3、hive1.2.1、hbase-0.98.6、sqoop-1.4.7.bin。二、实现步骤1.开启hdfsyarn(这个一定要开启,因为sqoop需要调用)zkmetastorehbase服务器2.建表...原创 2018-11-18 00:34:55 · 308 阅读 · 0 评论 -
HBase(7):hbase与MapReduce集成
一、实现功能1、从hbase里读数据将hbase里的数据作为map的输入2、将数据写入hbase将hbase作为reduce的输出3、从hbase里读数据,再写入hbase数据迁移,比如有张表:tb01有20列数据,将其中的10列数据读出来,写入另一张表tb02二、集成步骤1.hadoop的添加缺少hbase相关jar包(1)方法一:可以在hadoop的运行环境...原创 2018-12-01 19:12:58 · 276 阅读 · 0 评论 -
外网无法访问hdfs文件系统:SparkSQL本地scala代码连接服务器hive报错:INFO DFSClient: Could not obtain BP-397724921-127.0.0.1-
一、问题描述本地开发sparkSQL代码,连接hive,使用hivecontext连接报错:(1)代码:object _02hivecontext { def main(args: Array[String]): Unit = { //1)创建相关的context val sparkconf=new SparkConf().setAppName("Hivesq...原创 2019-01-18 07:38:11 · 2191 阅读 · 10 评论 -
Hadoop(1):JDK/HADOOP/YARN的安装配置
一、JDK安装和配置1、先卸载原先系统的java2、先修改权限chown -R hadoop01:hadoop01 /opt/3、解压JDK到指定的目录下,目录任意,建议不要装在某个用户主目录下tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/4、添加环境变量 (1)修改vi /etc/profile文件,配置...原创 2019-04-09 00:18:27 · 1667 阅读 · 0 评论 -
Hadoop(5):MapReduce编程统计PV
一、目的对于用户访问日志,使用MapReduce进行编程分析,获得每个城市的访问量。二、实现环境1.CDH 5.7.02.CentOS 7.43.集群外部Hadoop开发环境部署参考博客:https://blog.csdn.net/u010886217/article/details/89278390三、实现代码1.研究日志格式2.MapReduce实现统计...原创 2019-04-15 23:28:46 · 487 阅读 · 0 评论 -
大数据平台常用组件端口号(转载)
版权声明: https://blog.csdn.net/JENREY/article/details/80719552 常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 ...转载 2018-10-01 00:04:51 · 278 阅读 · 0 评论