SerDe
SerDe 是 Serialize/Deserilize 的简称,目的是用于序列化和反序列化。序列化的格式包括:
- 分隔符(tab、逗号、CTRL-A)
- Thrift 协议
反序列化(内存内):
- Java Integer/String/ArrayList/HashMap
- Hadoop Writable 类
- 用户自定义类
查看表结构方法有两种:
- desc tableName
- desc formatted tableName
修改表中的序列化分隔符:
hive> alter table store set SERDEPROPERTIES('field.delim'='\t');参考资料:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterTableProperties
本文深入探讨了SerDe在大数据处理中的关键角色,包括其如何进行序列化和反序列化,以及如何通过设置属性来定制序列化分隔符。通过了解不同序列化方式如分隔符、Thrift协议等,读者可以更好地掌握如何优化数据存储和传输效率。
8389

被折叠的 条评论
为什么被折叠?



