Hadoop
本专栏为学习Hadoop时遇到的问题,以及解决的办法。
剑客Evan
本人对ML、DL、RS、NLP较为感兴趣!
展开
-
Hive中数据去重的办法
数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换:方法一:select name,count(distinct(related_id)) from emp group by name;...原创 2020-03-21 11:34:39 · 1003 阅读 · 0 评论 -
JVM堆内存溢出解决办法java.lang.OutOfMemoryError: Java heap space
在使用Hadoop运行任务时,很有可能因为硬件资源不够而造成堆内存溢出解决办法:在yarn-site.xml中加入如下代码:<property> <name>yarn.scheduler.maximum-allocation-mb</name> value>2048</value></property><pr...原创 2020-03-21 10:21:57 · 333 阅读 · 0 评论 -
Pid存在的位置
Hadoop的namenode和datanode 的pid存放在Linux目录下的 /tmp目录下ZooKeeper的pid存放在自己设定的运行数据存放的目录下version-2是存放数据的.pid会存放在zkData目录下。...原创 2020-03-16 16:17:03 · 591 阅读 · 0 评论 -
centos7网络链接中出现Failed to start LSB: Bring up/down的解决方法
1.在终端中输入ip addr show中查找如下图划线中的mac地址进行复制2.vim /etc/sysconfig/network-scripts/ifcfg-ens33中修改HWADDR=(mac地址)原创 2020-03-05 20:07:45 · 365 阅读 · 0 评论 -
Centos7如何实现静态网络
修改如下配置vim /etc/udev/rules.d/70-persistent-ipoib.rules vim /etc/sysconfig/network-scripts/ifcfg-ens333.其中HWADDR的设置点击下面链接设置HWADDR连接原创 2020-03-09 15:40:59 · 257 阅读 · 0 评论 -
Linux下SSH无密码登陆
先在自己的主机上生成SSH公钥和私钥 cd /home/个人用户名/.sshssh-keygen rsa(输入该命令之后,遇到"冒号”,就世界Enter键,三次之后就成功了)会在.ssh目录下生成一个公钥和一个私钥需要在本机无密码访问其他主机,则就在本机的.ssh(还是上一个机器)目录下ssh-copy-id 其他主机的ip地址(1例如:92.168.12.111)这样在被访...原创 2020-03-09 14:24:10 · 91 阅读 · 0 评论 -
Hadoop集群搭建步骤
准备3台客户机(关闭防火墙、静态IP、主机名称与Ip映射)安装JDK配置环境变量配置完使用source处理一下,配置的文件/etc/profile安装Hadoop配置环境变量,并且还要source /etc/profile配置集群配置ssh实现无密码登陆(namenode服务器和resourcemanager服务器、namenode服务器的root用户也需要配置)群起并测试集群...原创 2020-03-09 14:14:34 · 267 阅读 · 0 评论 -
sudo添加管理员的方法
使用root用户 vim /etc/sudoers指令进入编写界面在下图的位置添加对应的用户即可3.修改完毕保存即可!原创 2020-03-09 14:03:15 · 192 阅读 · 0 评论 -
jdk.tools依赖的解决办法
在使用jdk.tools的时候,会发现依赖下载不下来1.你写入的代码 <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId> <version>1.8</ver...原创 2020-03-07 10:31:30 · 4506 阅读 · 4 评论 -
maven下载依赖失败解决办法
1.可以手动进行编写2.去中央仓库下载jar包导入本地原创 2020-03-07 10:01:01 · 1014 阅读 · 0 评论