大数据
文章平均质量分 85
张永清-老清
从事功能测试、自动化测试、性能测试、Java软件开发、大数据开发、架构师等工作十多年,在自动化测试设计、性能测试设计、性能诊断、性能调优、分布式架构设计等方面积累了多年经验。参与过的系统涉及公安、互联网、移动互联网、大数据、人工智能等领域。先后任职于江苏飞搏软件、苏宁大数据研发中心、苏宁研究院、苏宁人工智能研发中心、紫金普惠研发中心、福特汽车工程研究有限公司,历任测试经理、技术经理、部门经理、高级架构师等职位。重点关注大数据、图像处理、高性能分布式架构设计等领域。著有图书《软件性能测试、分析与调优实践之路》《数据资产管理核心技术与应用》、《RobotFramework 自动化测试框架核》等书。
展开
-
紫金大数据平台架构之路(一)----大数据任务开发和调度平台架构设计
ZooKeeper Master容错完成之后则重新由EasyScheduler中Scheduler线程调度,遍历 DAG 找到”正在运行”和“提交成功”的任务,对”正在运行”的任务监控其任务实例的状态,对”提交成功”的任务需要判断Task Queue中是否已经存在,如果存在则同样监控任务实例的状态,如果不存在则重新提交任务实例。API接口层,主要负责处理前端UI层的请求。任务优先级_任务id信息保存在ZooKeeper任务队列中,当从任务队列获取的时候,通过字符串比较即可得出最需要优先执行的任务。原创 2024-08-29 16:30:03 · 982 阅读 · 0 评论 -
《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(二)
数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。质量数据其实和常用的监控数据很类似,也可以考虑用时序数据库来进行存储,因为质量数据都是按照时间来时序采集的,并且数据也是时序变化的,所以使用时序数据库来存储是非常适合的。质量数据采集到的是原始的数据,由于数据质量规则众多,所以每一种规则采集到的原始数据可能都不一样,所以还需要对原始的数据做归一化处理,然后才能进行入库存储,如下图所示。原创 2024-08-27 14:51:13 · 1154 阅读 · 0 评论 -
《数据资产管理核心技术与应用》读书笔记-第五章:数据服务(二)
在完成了数据服务的配置后,数据服务在调用时,还需要进行监控,在监控到发生故障时还需要支持自动发送告警通知信息,这样才能更好的保障数据服务的稳定性。在书中的数据监控与告警那一章节中,有提到数据服务的监控与告警的技术设计实现主要是通过异步采集数据服务的调用日志,然后再配合Prometheus与Grafana来完成,如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著原创 2024-08-26 11:59:13 · 772 阅读 · 0 评论 -
《数据资产管理核心技术与应用》读书笔记-第五章:数据服务(一)
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。原创 2024-08-23 15:12:24 · 606 阅读 · 0 评论 -
《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(一)
在数据资产管理中,除了元数据和数据血缘外,数据质量也是很重要的一个环节,如下图所示,数据质量通常是指在数据处理的整个生命周期中,能否始终保持数据的完整性、一致性、准确性、可靠性、及时性等,我们只有知道了数据的质量,才能在数据质量差的时候,能去改进数据。《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现。不管是在数据仓库还是数据湖中,一开始我们都是不知道数据的质量情况的,需要通过一定的规则定期的到数据湖或者数据仓库中去采集数据的质量,这个规则是允许用户自己去进行配置的,通常的流程如下图所示。原创 2024-08-15 09:43:55 · 854 阅读 · 0 评论 -
《数据资产管理核心技术与应用》读书笔记-第二章:元数据的采集与存储
所以Iceberg在底层通过架构设计时增加了元数据层这一设计来规避Hive数据仓库的不足,如下图所示,从图中可以看到Iceberg使用了两层设计来持久化数据,一层是元数据层,一层是数据层,在数据层中存储是Apache Parquet、Avro或ORC等格式的实际数据,在元数据层中可以有效地跟踪数据操作时删除了哪些文件和文件夹,然后扫描数据文件统计数据时,就可以确定特定查询时是否需要读取该文件以便提高查询的速度。提到Delta Lake 就不得提数据湖这个概念了,Delta Lake 是数据湖的一种。原创 2024-08-06 17:03:24 · 1053 阅读 · 0 评论 -
《数据资产管理核心技术与应用》读书笔记-第一章:认识数据资产
元数据管理:在前面已经提到,元数据是描述其他数据的数据,是数据资产管理的核心,如果没有元数据管理,用户在使用数据时,就不知道数据是什么、包含了什么信息,自己需要的数据在哪里等,只有做好了元数据的管理,才能让数据更容易被检索,才能让数据的使用者快速的找到自己需要的数据。主数据的管理可以进一步提高数据的价值,提升数据对业务的响应速度。加强数据治理:通常来说,数据治理是做好数据资产管理的核心,通过不断的建立和完善数据治理的流程和规范,明确数据管理的职责和分工,对数据做好分类和标记,让数据更方便的被查找。原创 2024-08-05 13:22:02 · 1250 阅读 · 0 评论 -
spark 下java list 或者scala list 转DataFrame or DataSet 总结
更多请参考:https://stackoverflow.com/questions/39397652/convert-scala-list-to-dataframe-or-dataset。原创 2024-08-02 17:06:45 · 394 阅读 · 0 评论 -
spark-sql 与hive 常用函数
如trunc('2019-03-06','MM')='2019-03-01',trunc('2019-03-06','YYYY')='2019-01-01'lpad():左填充。date_add(date1,int1):返回日期date1加上int1的日期,如date_add('2019-03-06',1)='2019-03-07'date_sub(date1,int1):返回日期date1减去int1的日期,如date_sub('2019-03-06',1)='2019-03-05'原创 2024-08-02 17:02:02 · 487 阅读 · 0 评论 -
图书《数据资产管理核心技术与应用》介绍
通常来说,数据血缘的来源可以包括数据源自身、数据处理的任务、数据任务的编排系统等。全书依托于大数据技术,独家解密数据血缘的底层技术实现。原创 2024-08-02 13:51:27 · 343 阅读 · 0 评论 -
图书《数据资产管理核心技术与应用》核心章节节选-3.1.2. 从Spark 执行计划中获取数据血缘
因为数据处理任务会涉及到数据的转换和处理,所以从数据任务中解析血缘也是获取数据血缘的渠道之一,Spark 是大数据中数据处理最常用的一个技术组件,既可以做实时任务的处理,也可以做离线任务的处理。如下图3-1-10所示,在Spark的官方文档链接https://spark.apache.org/docs/latest/sql-ref-syntax-qry-explain.html#content中,有明确提到,可以根据EXPLAIN关键字来获取执行计划,这和很多数据库查看执行计划的方式很类似。原创 2024-08-02 13:40:49 · 698 阅读 · 0 评论