导读
Hive使用的难点在于两点,首先是Hive和MySQL不同,Hive数据源种类来源很广,字符串格式不标准,首要问题就是对文本的处理,将不规则的字段转换为合适的表结构,其次就是多表查询与行列转换
本篇主要阐述的是特殊分隔的处理
前置知识
在讲特殊字符处理之前,需要先说明以下Hive读取数据的机制
首先用 InputFormat的一个具体实 现类读入文件数据,返回一条一条的记录(可以是行,或者是你逻辑中的“行”)
然后利用 SerDe的一个具体 实现类,对上面返回的一条一条的记录进行字段切割
InputFormart和SerDe联合起来工作:
HDFS Files -->InputFileFormat -->-->Deserializer -->Row object
案例
数据格式:
01||huangbo
02||xuzheng
03||wangbaoqiang
使用RegexSerDe通过正则表达式来抽取宇段
创建表
加载数据