作者: lly
简介
本文介绍通过使用Hadoop命令的方式将csv数据导入进入HDFS中
一、环境准备
具体的环境准备及搭建流程可参考以下文章,本文不再做赘述
基础环境准备:https://blog.csdn.net/supermapsupport/article/details/91443032
Hadoop集群搭建:https://blog.csdn.net/supermapsupport/article/details/91972499
二、数据准备
未注册到 iServer的 csv 数据进行分布式分析服务,则需确保在 csv 存放目录下有与其对应的 .meta 文件,该.meta文件包含 csv 数据文件的元信息,所以我们将两个数据一起拷入。以示范数据 newyork_taxi_2013-01_14k.csv 为例,.meta 文件内容为:
"FieldInfos": [
{
"name": "col0",
"type": "WTEXT"
},
{
"name": "col1",
"type": "WTEXT"
},
{
"name": "col2",
"type": "WTEXT"
},
{
"name": "col3",
"type": "INT32"
},
{
"name": "col4",
"type": "WTEXT"
},
{
"name": "col5",
"type": "WTEXT"
},
{
"name": "col6",
"type": "WTEXT"
},
{
"name": "col7",
"type": "INT32"
},
{
"name": "col8",
"type": "INT32"
},
{
"name": "col9",
"type": "DOUBLE"
},
{
"name": "X",
"type": "DOUBLE"
},
{
"name": "Y",
"type": "DOUBLE"
},
{
"name": "col12",
"type": "DOUBLE"
},
{
"name": "col13",
"type": "DOUBLE"
}
],
"GeometryType": "POINT",
"HasHeader": false,
"StorageType": "XYColumn"
}
三、导入csv
1.首先将数据放到opt目录下
- newyork_taxi_2013-01_14k.csv
- newyork_taxi_2013-01_14k.meta
2.将示例数据导入到 hdfs 中,启动 hadoop,在 hadoop-2.7.7/bin 中执行
./hadoop fs -mkdir /input #创建/input 目录
./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.csv /input/ #将 taxi 数据导入到/input 目录中
./hdfs dfs -put /opt/newyork_taxi_2013-01_14k.meta /input/
3.导入完成后,可以使用如下命令查看
./hadoop fs -ls /input
4.输出结果如下
5.也可通过访问文件系统的方式来查看,访问ip:50070(ip为Hadoop所在机器的ip),并选择刚才创建的文件夹
至此,我们已成功将csv数据导入Hadoop的HDFS中。我们后续会发布更多有关SuperMap大数据平台的专题。