在下在做数据分析时,原始数据是excel格式的,导入hive表时将其转化为txt格式。
excel文件转txt格式的步骤如下:
1.打开另存为
2.选择txt格式保存
3.打开转成的txt将编码修改为UTF-8
在往hive表中导入数据时常常以换行符‘\n’来分割条数据。然而有时因为数据格式不够标准,即excel单元格中存在着换行符情况。例子如下:
在这个表格中,B3,B4单元格都存在这换行符。如果将其导入到hive中,查询得到的结果将是这样:
姓名 与宝宝的关系
王宝强 宝宝本人
马蓉 "曾经是宝宝的宝宝
现在是宝宝的前妻"
宋喆 "曾经是宝宝的经纪人
现在是宝宝曾经的宝宝的宝宝"
与我们预先想得到的不一