使用说明
IAmListening
没有签名,所以个性
展开
-
在ETL中使用avro
摘要简介部分ETL过程中使用avro格式的优越性此文章主要记录ETL过程使用avro格式存储数据时的注意事项简介出于方便性考虑, 数据仓库ods层的存储格式往往是texttext是易于人类阅读的, 当然易于以字符串的形式批量处理数据.但是如果数据源是mysql等关系型数据库, 数据本身的格式相对规范. 这种情况下, 数据抽取时如果依旧使用text格式, 必然会导致数据类型信息的丢失...原创 2019-05-19 23:59:56 · 587 阅读 · 0 评论 -
(小结)Maven的Pom文件
引用官网的一句话吧The pom.xml file is the core of a project's configuration in Maven. It is a single configuration file that contains the majority of information required to build a project in just the way y...原创 2019-06-20 16:41:03 · 411 阅读 · 1 评论 -
(小结)日志框架
说明开发spark相关项目的时候, 在日志框架的选用上踩了一些坑, 记录如下:原本计划使用logback, slf4j提示异常.尝试在maven设置exclusions, 以排除原有的log4j框架. 但是hadoop相关架构大多使用log4j框架, 排除起来很费精力, 而且大量设置exclusions降低了pom文件的可读性.决定和原日志框架保持一致, 也就是沿用log4j框架log...原创 2019-07-03 15:09:58 · 141 阅读 · 0 评论 -
更新hive表
前言hive表的更新, 需要对原表的完全重写. 或者说, hive表结构的设计, 本身的优势在于, 结合高扩展性实现的近乎无限的容量, 它应对数据变化是十分低效的所以设计数仓时, 如果大量数据有更新的需求, 就应该考虑hive+的架构模式但是数仓基本成型之后, 改变架构的成本很高. 这时候, 虽然效率较低, 但依旧可以使用hive完成数据的更新.数据可以完成更新的前提是有更新标识, 常见的...原创 2019-07-04 18:06:33 · 4366 阅读 · 0 评论