- 博客(8)
- 资源 (192)
- 收藏
- 关注
原创 LeetCode --- 860. Lemonade Change 解题报告
At a lemonade stand, each lemonade costs$5.Customers are standing in a queue to buy from you, and order one at a time (in the order specified bybills).Each customer will only buy one lemonade andpay with either a$5,$10, or$20bill. You must pro...
2020-11-29 21:51:18 294
原创 数据工程师的开发自检素养
一、简述 在日常的快速开发和项目迭代工作中,我们通常以结果为导向开发完成各种需求,也处理各种上线前后的Bug。虽然目前有很多的自动化数据质量监测和检测工具,但对于自己开发产出的数据做自检是一个有素养的数据工程师必备的好习惯。我们通过自己的人肉质检可以在测试或预发环境以及上线前解决一些肉眼可见的小Bug,再经过多维度数据对比通常可以解决大部分易察觉的Bug。提高项目进度以及整体流程的时间把控,提升数据/项目质量。二、具体思路三、总结 目前很多自动化组件/...
2020-11-29 21:24:12 620
原创 脏数据清洗实践方案
一、概述 无论对于数据仓库/数据湖/数据中台,都会存在大量的脏数据,当我们在使用一张数据表时,发现其中出现大量的重复数据,活着其中的字段信息对应错误,原本ID:101 对应的name时YY,但实际存储的是XX,这种脏数据的场景就不举太多例子了肯定很常见。那么我来总结一个解决方案。 二、解决方案 现在有一张表t_1(按天分区全量),我们某一天发现t_1出现了概述中的提到的脏数据情况,那么我们大多数第一反应就是去找t_1_上游表,反馈给这个表的负责人(思路没问..
2020-11-22 12:44:26 2044
原创 理解多租户与多用户
多租户 租户是一个团队/组的概念,租户当中可以加入不同的成员,每个成员都可以在租户里创建自己的应用,在应用中可以选择、创建、串联各种不同的服务(通用/模型/规则/第三方服务)去服务一个具体业务场景,以及对各类在线服务的管理监控,成熟的应用将沉淀一个业务解决方案,快速复用到相似的业务场景; 可以参考如下图 多用户 对比多租户来说比较好理解,类似于一个网站/平台有多少用户注册,留存多少用户,共享所有资源,没有划分资源限制(不...
2020-11-15 13:10:19 2724
原创 数据中台学习笔记 --- 实战中的中台总结
关于中台的概念铺垫请参考前几篇的介绍:中台一中台二本篇主要叙述一下实际的中台是什么? 我们日常总听到的数据中台、业务中台、运营中台其实是跟我们所在的部门、事业部、事业群一样,都是人/数据/应用的集合; 对于大厂来说由于业务/数据快速发展到那一定成度,不是一个简单的数据仓库或者数据湖可以覆盖所有业务场景情况下提出的; 目的是为了解决人/数据/资源的高效运用和调度; 举个例子我们常见的中台在大厂中可以这样存在 例子一 人员
2020-11-12 23:46:57 745
原创 准确率、精确率、召回率、F1(F-Measure)都是什么?
机器学习ML、自然语言处理NLP、信息检索IR等领域,评估(Evaluation)是一个必要的工作,而其评论价值指标往往有如下几点: 准确率 Accuracy; 精准率 Precision; 召回率 Recal; F1-Measure; TP: True Positive 把正的判断为正的数目True Positive,判断正确,且判为了正,即正的预测为正的; FN:False Negative 把正的错判为负的数..
2020-11-10 23:41:43 973
原创 LeetCode --- 859. Buddy Strings 解题报告
Given two stringsAandBof lowercase letters, returntrueif you can swap two letters inAso the result is equal toB, otherwise, returnfalse.Swapping letters is defined as taking two indicesiandj(0-indexed) such thati != jand swapping the char...
2020-11-08 23:53:43 333
原创 数据仓库Build The Data Warehouse(William H.Inmon)学习笔记 --- 第十章、数据仓库的设计复查要目
零、简介 在操作性环境中确保质量的最有效的方法之一是设计复查。通过设计符复查可以检测到各种错误,并在编码之前更正这些错误,能得到很大的好处; 在操作型环境中,设计复查通常是在一个应用的物理设计完成以后进行的。操作型设计复查所围绕的中心问题的类型有以下这些: 事务处理性能; 批窗口是否适当; 系统可用性; 容量; 项目准备的充分性; 用户需要..
2020-11-02 00:48:19 509 1
深入浅出Otter与Canal.pdf
2020-02-29
weworkapi_python-master.zip
2020-01-20
基础算法-LP算法_线性规划问题.pptx
2019-10-17
基础算法-递归-杨鑫20191010.pptx
2019-10-17
基础算法 - 动态规划-2019-08-01.pptx
2019-10-17
Confluence-5.6.6-language-pack-zh_CN.jar
2018-09-30
Goods: Organizing Google’s Datasets
2018-09-06
Kudu- Storage for Fast Analytics on Fast Data
2017-12-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人