数据质量
诸葛子房_
先后就职于京东和BAT,在大数据领域有多年工作经验;
Apache Griffin&&Apache Zeppelin Contributor,dataCompare和dataService作者
展开
-
开源项目datavines内存泄漏问题分析
通过jdk自带工具,jvisualvm.exe(在安装jdk8/bin目录下)添加JMX连接,即可看到如下界面。原创 2023-11-15 13:01:24 · 319 阅读 · 0 评论 -
新一代数据质量平台datavines
缺点:部署依赖非常多,ElasticSearch、Hadoop、Livy、Spark等,离线处理主要依赖spark、实时处理主要以将流转成微批,采用Spark Streaming为主,技术栈 java、scala 前端 angular。横向可扩展功能较差、作业容错处理较差。优点:核心功能包括:数据质量监控、数据探查、数据对比,功能明细优于 Griffin;在我实习的第一家公司的时候,有幸参与Apache Griffin的开发,也先后在一起其他公司使用过数据质量平台,同时也调研过一些开源的数据质量平台。原创 2023-11-03 17:17:30 · 825 阅读 · 0 评论 -
聊聊大数据质量监控的那些事
在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上...原创 2019-10-17 15:30:05 · 1172 阅读 · 0 评论