大数据和人工智能
知而无涯
一起交流
展开
-
Linux部署oozie任务调度框架
修改版资料链接:https://pan.baidu.com/s/1KWvkBG-QNYNBdyZkV42X9w提取码:06x6复制这段内容后打开百度网盘手机App,操作更方便哦一:Oozie的部署1:上传的目录2:解压安装1:解压安装包tar -zxvf oozie-4.0.0-cdh5.3.6.tar.gz -C /training/oozie/2:在oozie根目录下解压oozie-hadooplibs-4.0.0-cdh5.3....原创 2020-12-07 16:15:03 · 280 阅读 · 0 评论 -
Linux部署Hbase分布式文件存储
一:Hbase安装前提准备1:Zookeeper完成部署,并且集群能够成功启动1.1进入目录cd /training/zookeeper-3.4.5/bin2:启动./zkServer.sh start3:查看状态./zkServer.sh status2:Hadoop集群部署,并且集群能够成功启动cd /training/hadoop-2.4.1/sbin/start-all.sh主服务器都是server2二:Hbase的解压安装1:Hbas..原创 2020-12-07 16:00:52 · 413 阅读 · 0 评论 -
mstsc 和mstsc admin 区别
mstsc 和mstsc /admin分别远程连接服务器区别:连接身份不同、程序加载不同、执行操作不同。一、连接身份不同1、Mstsc远程连接服务器:Mstsc远程连接服务器的连接标识是普通用户。如果其他更高级的用户已登录,则无法连接。2、Mstsc/Admin远程连接服务器:Mstsc/Admin远程连接服务器的连接标识为管理员用户,连接优先级最高。具有其他登录级别的用户将退出连接。...原创 2020-04-15 17:15:03 · 3864 阅读 · 0 评论 -
Linux上部署Flume并测试(自测详细实用版)
一:Flume的部署下载安装包1: Flume官网地址http://flume.apache.org/2:文档查看地址http://flume.apache.org/FlumeUserGuide.html3:下载地址http://archive.apache.org/dist/flume/4: 安装部署1)将apache-flu...原创 2019-12-30 16:28:23 · 2514 阅读 · 1 评论 -
For direct MetaStore DB connections, we don't support retries at the client level
For direct MetaStore DB connections, we don't support retries at the client level一: bug截图二:原因分析mysql的jar包的问题,重新更好jar包即可三:重新测试...原创 2019-12-10 08:55:52 · 263 阅读 · 0 评论 -
hadoop报错---Error java.lang.NumberFormatException For input string C01
一:bug截图Error: java.lang.NumberFormatException: For input string: "C01"二:原因分析在封装的bean中,category_id字段是数字格式,并不是字符串,该处和上传到hdfs上对应的字段不一致三:解决方案修改pd.txt,文件,将字符串改为数字...原创 2019-11-21 19:53:45 · 983 阅读 · 0 评论 -
hadoop报错---Error-java.lang.ArrayIndexOutOfBoundsException-2
一:bug截图Error:java.lang.ArrayIndexOutOfBoundsException:2二:原因分析1:程序代码2:块文件是按","来进行空格的,并不是制表符,所以maptask在按行切分的时候会出现索引越界的异常三:解决方案修改代码,改成按逗号切分,或者修改文本文件,按制表符进行空格...原创 2019-11-21 19:52:18 · 2311 阅读 · 0 评论 -
hadoop报错之bug4--Exception in thread main java.lang.ArrayIndexOutOfBoundsException 0
一:bug截图hadoop运行报Exception in thread main java.lang.ArrayIndexOutOfBoundsException0二:原因分析hadoop没有设置本地运行的输入和输出目录三:解决方案再次运行,设置...原创 2019-11-21 19:48:52 · 1331 阅读 · 0 评论 -
hadoop报错之bug3---hadoop的output目录已经存在
一:bug截图Output directory hdfs://server2:9000/wordcount/input already exists二:原因分析1:写了同一个参数2:还有可能就是该目录已经存在三:解决方案output目录必须不存在的,如果存在,需要删掉1:使用hadoop命令行删除hadoop fs -rm -r ...原创 2019-11-21 19:46:19 · 4340 阅读 · 0 评论 -
hadoop报错之bug2--不支持version52.0,其中version 52.0是其中一个版本,他对应的是jdk1.8
一:bug截图二:原因分析更换本地的jdk版本就可以了你在hadoop服务器上安装的jdk版本是jdk1.7而在本地安装的jdk是1.8,就会出现版本不一致的问题三:解决方案更改本地的jdk版本皆可...原创 2019-11-21 19:44:16 · 580 阅读 · 0 评论 -
hadoop报错之bug1-验证Hadoop是否配置成功报错error-JAVA_HOME is incorrectly set
一:BUG截图二:解决方案修改 hadoop-env.cmd文件,添加jdk的安装路径三:再次测试原创 2019-11-21 19:39:50 · 320 阅读 · 0 评论 -
MapReduce的原理和运行流程
1:应用场景 1: 海量数据在单机上处理因为硬件资源限制,无法胜任 2:而一旦将单机版程序扩展到集群上分布式运行,将极大增加程序复杂和开发难度 3:引入MapReduce程序后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理. 分布式:1:文件分布式存储HDFS2:运算逻辑需要至少分成两个阶段(一个阶段独立...原创 2019-11-15 19:26:08 · 604 阅读 · 1 评论 -
hadoop的combiner类
1:释义通常,每个map可能产生大量的输出,combiner作用就是在map端对输出先做一次合并,以减少传输到reduce端的数据量,节省网络资源,很多MapReduce程序受限于集群上可用的带宽,所以它会尽量最小化需要在map和reduce任务之间传输的中间数据.不管combiner被调用多少次,对应的reduce输出结果都应该是一样的2:举例2019年天气数据读取是由两个map完成...原创 2019-11-15 18:11:46 · 373 阅读 · 0 评论 -
hadoop2.6.4在window7下eclipse环境搭建
参考博客https://blog.csdn.net/sl1992/article/details/53171342一: 下载插件包https://pan.baidu.com/s/1Fqm0mAHrMkrRUHxkz-gikg然后放在Linux的该目录下二:下载hadoop可以在官网上找到对应的版本http://hadoop.apache.org/,...原创 2019-10-26 11:27:29 · 135 阅读 · 0 评论 -
使用命令查看hdfs运行状况
查看hdfs运行状况 该命令查看,比在界面上访问更为准确,也更为具体 hdfs dfsadmin -report原创 2019-10-25 23:34:56 · 3783 阅读 · 0 评论 -
问题9---hadoop命令没有找到
参考博客一:bug截图二:原因分析环境变量没有配置,或者没有生效三:生效:source /etc/profile原创 2019-06-30 21:45:00 · 411 阅读 · 0 评论 -
Hadoop报错之---java.io.IOException All specified directories are failed to load
参考博客https://blog.csdn.net/lzwglory/article/details/53810588一:原因分析多次格式化导致/home/hadoop/hdpdata/dfs/name/current目录下version文件id发生冲突,注意:格式化只能执行一次clusterID=CID-510eb0a4-284b-494c-8ff5-a362cd1516b5...原创 2019-05-10 10:47:19 · 3746 阅读 · 0 评论 -
二:hadoop环境准备和集群搭建详细版,亲测可用
二:hadoop集群搭建1:Hadoop集群简介绍hadoop集群具体包含两个集群,HDFS集群和YARN集群,两者逻辑上分离,但是物理上关联HDFS集群负责海量数据的存储,其主要角色有NameNode. DateNode SecondaryNameNodeYARN集群负责海量数据运算时的资源调度,集群中的角色主要有:ResoureeManager,NodeManage...原创 2019-05-07 11:15:37 · 270 阅读 · 0 评论