mysql的 数据库 数据过大,做数据分析,需要从 mysql 转向hadoop。
1,遇到的问题
从mysql转数据到hive中,本想用parquet格式,但是一直都没有成功,提示
Hive import and create hive table is not compatible with importing into ParquetFile format.
sqoop不管是mysql直接到hive。还是把mysql导出成parquet文件,然后在把parquet文件,在导入到hive的外部表,都没有成功
存为avro格式也是一样。
2,安装sqoop
下载:http://mirrors.shu.edu.cn/apache/sqoop/1.4.7/
# tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
# cp -r sqoop-1.4.7.bin__hadoop-2.6.0 /bigdata/sqoop
3,配置sqoop
3.1,配置用户环境变量
# cd ~
# vim .bashrc
export SQOOP_HOME=/bigdata/sqoop
export PATH=$ZOOKEEPER_HOME/bin:$SPARK_HOME/bin:$HIVE_HOME/bin:/bigdata/hadoop/bin:$SQOOP_HOME/bin:$PATH
# source .bashrc
3.2,配置sqoop-env.sh
# vim /bigdata/sqoop/sqoop-env.sh
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/bigdata/hadoop
#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/bigdata/hadoop
#set the path to where bin/hbase is available
#export HBASE_HOME=
#Set the path