本课题主要涉及以下几点:
1. 企业中常见的数据类型
2. 多结构化的数据的摄取/输出
- Apache Log formats
- Custom log format
- Image format
3. NoSQL 数据的摄取/输出
- MongoDB
- HBase
4. 结构化数据的摄取/输出
- Hive RCFile
- Hive HCatalog
5. 半结构化数据的摄取/输出
- raw XML
- binary XML
- XML
6. JSON 格式数据的摄取/输出
7. Avro 格式的数据
8. Parquet 格式的数据
9. Protocel Buffer 格式的数据 --> 参考腾讯的 TDW 项目