重要说明:
1、本地文件理论上可以是任意格式的数据(.txt , .json , 字符串...)
2、过程完全可以复用(同种类型问题)
数据源示例:json格式数据
[
{
"cityId": 19,
"cityName": "北京",
"province": "北京",
"shortWord": "B",
"pinyin": "beijing"
},
{
"cityId": 258,
"cityName": "上海",
"province": "上海",
"shortWord": "S",
"pinyin": "shanghai"
},
{
"cityId": 46,
"cityName": "广州",
"province": "广东",
"shortWord": "G",
"pinyin": "guangzhou"
},
...
]
一、对“本地文件数据”进行处理
步骤一:将文件内容读取出来并存为字符串&#x

本文详细介绍了如何将本地(Windows)的任意格式数据,如JSON,导入到Hive表中。首先,通过读取文件、正则处理和格式转换生成适合Hive的文本文件,接着将文件上传到Linux服务器并检查编码,最后在Hive中创建表,将数据文件移动到Hive的HDFS路径,实现数据入库。
最低0.47元/天 解锁文章
1434

被折叠的 条评论
为什么被折叠?



