笔记规则:*代表重点标记符号,即重要命令
* 环境变量:sudo gedit /etc/profile
* export JAVA_HOME=/jdk路径/jdk1.8.0_121
* export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH
* export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
* 注意:XXX_HOME指向安装目录 CLASSPATH指向lib目录 PATH指向bin目录
* export HADOOP_HOME=/usr/local/hadoop
* export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
* export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
* export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
* export HIVE_HOME=$HADOOP_HOME/hive
* export PATH=$HIVE_HOME/bin
* 设置完环境变量之后需要运行:source /etc/profile
ssh安装:sudo apt-get install sshopen-server sshopen-client
* 添加各个主机信息:sudo gedit /etc/hosts
* 在127.0.0.1下面添加:
* ip1 hostname1
* ip2 hostname2
ssh传输文件命令:
传输文件夹时注意添加递归方式参数:scp -R 远程主机文件夹一般有权限限制,可先传输到tmp文件夹下
当前系统传输到远程主机上:scp /本机路径/本机文件 hostname@hostIP:/接收文件路径/
远程主机传输到当前系统上:scp hostname@hostIP:/远程主机上的文件路径/传输文件 /本机接收文件路径/传输文件
ssh免密登录:
ssh localhost
exit
* cd ~/.ssh/
* ssh-keygen -t rsa
* 三次回车
* cat ./id-rsa.pub >> ./authorized_keys
安装tar.gz文件重定向安装目录:tar -zxvf /安装包目录/xxxxx.tar.gz -C /重定向目录/
将hadoop文件夹权限设置为hadoop用户所有:sudo chown -R hadoop.hadoop /hadoop/
hadoop命令:
查看某个文件夹下所有文件和文件夹:hadoop fs -ls /某个文件夹
列出某个文件内容:-cat /xxx.txt
* 上传本地文件到hadoop中:-put /localfile /hadoop接收路径
复制本地文件到hadoop系统中:-copyFromLocal /本地路径 /hadoop的接收路径
* 复制hadoop中的文件到本地:-copyToLocal /hadoop的文件路径 /本地路径
在hadoop中复制文件:cp /路径/文件 /复制到路径
创建目录:-mkdir
删除:-rm
递归删除:-rmr
移动:-mv
* hadoop性能调优:sudo gedit /hadoop/etc/hadoop/yarn-site.xml
<property>
<name></name>
<value></value>
</property>
mysql安装:
* sudo apt-get install mysql-server mysql-client libmysqlclient-dev
hive:
* jdbc的jar包应该放置目录:hive/lib
配置:
* cp hive- default.xml.template /hadoop/hive/conf/hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123</value>
<description>password to use against metastore database</description>
</property>
</configuration>
* cp hive-env.sh.template /hadoop/hive/conf/hive-env.sh
* HADOOP_HOME=/hadoop
* hive安装完成后必须将规定的元数据库初始化:schematool -dbType mysql -initSchema
将一个以指定格式保存的文件转化成hive表的格式表现:
* 创建以数据文件中对应格式的hive表:
* creat table 表名(字段 字段类型)
* row format delimited fields terminated by '字段内容间的分隔符';
* 本地数据文件导入到创建好的hive表中:load data local inpath '/本地路径/数据文件' into table 表名;
* hdfs系统中的数据文件导入到创建好的hive表中:load data inpath '/hdfs中的路径/数据文件' into table 表名;
保存hive表查询结果:
* 以xxx.txt文件保存到本地:
* hive -e "HQL语句" > /本地保存路径/xxx.txt
* 指定分隔符保存到hdfs中,这种方式需要在hive中执行:
* hive
* hive> insert overwrite directory "/hdfs中的保存路径"
* > row format delimited fields terminated by "指定的分隔(默认为^A)"
* > HQL语句;
* 也可保存到本地,需在directory前加上参数:local
mapreduce:
* hadoop jar /hadoop/share/hadoop/tools/lib/hadoop-*streaming*.jar \
* -file /map任务代码路径/mapper.py -mapper /map任务代码路径/mapper.py \
* -file /reduce任务代码路径/reducer.py -reducer /reduce任务代码路径/reducer.py \
* -input /数据文件路径/*
* -output /数据分析结果输出路径
* 环境变量:sudo gedit /etc/profile
* export JAVA_HOME=/jdk路径/jdk1.8.0_121
* export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH
* export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
* 注意:XXX_HOME指向安装目录 CLASSPATH指向lib目录 PATH指向bin目录
* export HADOOP_HOME=/usr/local/hadoop
* export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
* export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
* export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
* export HIVE_HOME=$HADOOP_HOME/hive
* export PATH=$HIVE_HOME/bin
* 设置完环境变量之后需要运行:source /etc/profile
ssh安装:sudo apt-get install sshopen-server sshopen-client
* 添加各个主机信息:sudo gedit /etc/hosts
* 在127.0.0.1下面添加:
* ip1 hostname1
* ip2 hostname2
ssh传输文件命令:
传输文件夹时注意添加递归方式参数:scp -R 远程主机文件夹一般有权限限制,可先传输到tmp文件夹下
当前系统传输到远程主机上:scp /本机路径/本机文件 hostname@hostIP:/接收文件路径/
远程主机传输到当前系统上:scp hostname@hostIP:/远程主机上的文件路径/传输文件 /本机接收文件路径/传输文件
ssh免密登录:
ssh localhost
exit
* cd ~/.ssh/
* ssh-keygen -t rsa
* 三次回车
* cat ./id-rsa.pub >> ./authorized_keys
安装tar.gz文件重定向安装目录:tar -zxvf /安装包目录/xxxxx.tar.gz -C /重定向目录/
将hadoop文件夹权限设置为hadoop用户所有:sudo chown -R hadoop.hadoop /hadoop/
hadoop命令:
查看某个文件夹下所有文件和文件夹:hadoop fs -ls /某个文件夹
列出某个文件内容:-cat /xxx.txt
* 上传本地文件到hadoop中:-put /localfile /hadoop接收路径
复制本地文件到hadoop系统中:-copyFromLocal /本地路径 /hadoop的接收路径
* 复制hadoop中的文件到本地:-copyToLocal /hadoop的文件路径 /本地路径
在hadoop中复制文件:cp /路径/文件 /复制到路径
创建目录:-mkdir
删除:-rm
递归删除:-rmr
移动:-mv
* hadoop性能调优:sudo gedit /hadoop/etc/hadoop/yarn-site.xml
<property>
<name></name>
<value></value>
</property>
mysql安装:
* sudo apt-get install mysql-server mysql-client libmysqlclient-dev
hive:
* jdbc的jar包应该放置目录:hive/lib
配置:
* cp hive- default.xml.template /hadoop/hive/conf/hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123</value>
<description>password to use against metastore database</description>
</property>
</configuration>
* cp hive-env.sh.template /hadoop/hive/conf/hive-env.sh
* HADOOP_HOME=/hadoop
* hive安装完成后必须将规定的元数据库初始化:schematool -dbType mysql -initSchema
将一个以指定格式保存的文件转化成hive表的格式表现:
* 创建以数据文件中对应格式的hive表:
* creat table 表名(字段 字段类型)
* row format delimited fields terminated by '字段内容间的分隔符';
* 本地数据文件导入到创建好的hive表中:load data local inpath '/本地路径/数据文件' into table 表名;
* hdfs系统中的数据文件导入到创建好的hive表中:load data inpath '/hdfs中的路径/数据文件' into table 表名;
保存hive表查询结果:
* 以xxx.txt文件保存到本地:
* hive -e "HQL语句" > /本地保存路径/xxx.txt
* 指定分隔符保存到hdfs中,这种方式需要在hive中执行:
* hive
* hive> insert overwrite directory "/hdfs中的保存路径"
* > row format delimited fields terminated by "指定的分隔(默认为^A)"
* > HQL语句;
* 也可保存到本地,需在directory前加上参数:local
mapreduce:
* hadoop jar /hadoop/share/hadoop/tools/lib/hadoop-*streaming*.jar \
* -file /map任务代码路径/mapper.py -mapper /map任务代码路径/mapper.py \
* -file /reduce任务代码路径/reducer.py -reducer /reduce任务代码路径/reducer.py \
* -input /数据文件路径/*
* -output /数据分析结果输出路径