hadoop平台部署笔记

最新推荐文章于 2022-07-31 07:53:19 发布

DhYanga

最新推荐文章于 2022-07-31 07:53:19 发布

阅读量195

点赞数

分类专栏： bigdata 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_38176007/article/details/78943110

版权

bigdata 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

笔记规则：*代表重点标记符号，即重要命令

* 环境变量：sudo gedit /etc/profile
* export JAVA_HOME=/jdk路径/jdk1.8.0_121
* export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH
* export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
* 注意：XXX_HOME指向安装目录 CLASSPATH指向lib目录 PATH指向bin目录
* export HADOOP_HOME=/usr/local/hadoop
* export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
* export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
* export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
* export HIVE_HOME=$HADOOP_HOME/hive
* export PATH=$HIVE_HOME/bin
* 设置完环境变量之后需要运行：source /etc/profile

ssh安装：sudo apt-get install sshopen-server sshopen-client

* 添加各个主机信息：sudo gedit /etc/hosts
* 在127.0.0.1下面添加：
* ip1 hostname1
* ip2 hostname2

ssh传输文件命令:
传输文件夹时注意添加递归方式参数:scp -R 远程主机文件夹一般有权限限制，可先传输到tmp文件夹下
当前系统传输到远程主机上：scp /本机路径/本机文件 hostname@hostIP:/接收文件路径/
远程主机传输到当前系统上：scp hostname@hostIP:/远程主机上的文件路径/传输文件 /本机接收文件路径/传输文件

ssh免密登录：
ssh localhost
exit
* cd ~/.ssh/
* ssh-keygen -t rsa
* 三次回车
* cat ./id-rsa.pub >> ./authorized_keys

安装tar.gz文件重定向安装目录：tar -zxvf /安装包目录/xxxxx.tar.gz -C /重定向目录/

将hadoop文件夹权限设置为hadoop用户所有：sudo chown -R hadoop.hadoop /hadoop/

hadoop命令：
查看某个文件夹下所有文件和文件夹：hadoop fs -ls /某个文件夹
列出某个文件内容：-cat /xxx.txt
* 上传本地文件到hadoop中：-put /localfile /hadoop接收路径
复制本地文件到hadoop系统中：-copyFromLocal /本地路径 /hadoop的接收路径
* 复制hadoop中的文件到本地：-copyToLocal /hadoop的文件路径 /本地路径
在hadoop中复制文件：cp /路径/文件 /复制到路径
创建目录：-mkdir
删除：-rm
递归删除：-rmr
移动：-mv

* hadoop性能调优：sudo gedit /hadoop/etc/hadoop/yarn-site.xml
<property>
<name></name>
<value></value>
</property>

mysql安装:
* sudo apt-get install mysql-server mysql-client libmysqlclient-dev

hive:
* jdbc的jar包应该放置目录：hive/lib
配置：
* cp hive- default.xml.template /hadoop/hive/conf/hive-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123</value>
<description>password to use against metastore database</description>
</property>
</configuration>
* cp hive-env.sh.template /hadoop/hive/conf/hive-env.sh
* HADOOP_HOME=/hadoop
* hive安装完成后必须将规定的元数据库初始化：schematool -dbType mysql -initSchema

将一个以指定格式保存的文件转化成hive表的格式表现：
* 创建以数据文件中对应格式的hive表：
* creat table 表名(字段字段类型)
* row format delimited fields terminated by '字段内容间的分隔符';
* 本地数据文件导入到创建好的hive表中：load data local inpath '/本地路径/数据文件' into table 表名;
* hdfs系统中的数据文件导入到创建好的hive表中：load data inpath '/hdfs中的路径/数据文件' into table 表名;

保存hive表查询结果：
* 以xxx.txt文件保存到本地：
* hive -e "HQL语句" > /本地保存路径/xxx.txt
* 指定分隔符保存到hdfs中，这种方式需要在hive中执行：
* hive
* hive> insert overwrite directory "/hdfs中的保存路径"
* > row format delimited fields terminated by "指定的分隔（默认为^A）"
* > HQL语句;
* 也可保存到本地，需在directory前加上参数：local

mapreduce：
* hadoop jar /hadoop/share/hadoop/tools/lib/hadoop-*streaming*.jar \
* -file /map任务代码路径/mapper.py -mapper /map任务代码路径/mapper.py \
* -file /reduce任务代码路径/reducer.py -reducer /reduce任务代码路径/reducer.py \
* -input /数据文件路径/*
* -output /数据分析结果输出路径

DhYanga

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop平台部署笔记

笔记规则：*代表重点标记符号，即重要命令* 环境变量：sudo gedit /etc/profile* export JAVA_HOME=/jdk路径/jdk1.8.0_121* export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH* export PATH=$JAVA_HOME/bin:$J
复制链接

扫一扫