自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

  • 博客(8)
  • 资源 (192)
  • 收藏
  • 关注

原创 LeetCode --- 860. Lemonade Change 解题报告

At a lemonade stand, each lemonade costs$5.Customers are standing in a queue to buy from you, and order one at a time (in the order specified bybills).Each customer will only buy one lemonade andpay with either a$5,$10, or$20bill. You must pro...

2020-11-29 21:51:18 294

原创 数据工程师的开发自检素养

一、简述 在日常的快速开发和项目迭代工作中,我们通常以结果为导向开发完成各种需求,也处理各种上线前后的Bug。虽然目前有很多的自动化数据质量监测和检测工具,但对于自己开发产出的数据做自检是一个有素养的数据工程师必备的好习惯。我们通过自己的人肉质检可以在测试或预发环境以及上线前解决一些肉眼可见的小Bug,再经过多维度数据对比通常可以解决大部分易察觉的Bug。提高项目进度以及整体流程的时间把控,提升数据/项目质量。二、具体思路三、总结 目前很多自动化组件/...

2020-11-29 21:24:12 620

原创 脏数据清洗实践方案

一、概述 无论对于数据仓库/数据湖/数据中台,都会存在大量的脏数据,当我们在使用一张数据表时,发现其中出现大量的重复数据,活着其中的字段信息对应错误,原本ID:101 对应的name时YY,但实际存储的是XX,这种脏数据的场景就不举太多例子了肯定很常见。那么我来总结一个解决方案。 二、解决方案 现在有一张表t_1(按天分区全量),我们某一天发现t_1出现了概述中的提到的脏数据情况,那么我们大多数第一反应就是去找t_1_上游表,反馈给这个表的负责人(思路没问..

2020-11-22 12:44:26 2044

原创 理解多租户与多用户

多租户 租户是一个团队/组的概念,租户当中可以加入不同的成员,每个成员都可以在租户里创建自己的应用,在应用中可以选择、创建、串联各种不同的服务(通用/模型/规则/第三方服务)去服务一个具体业务场景,以及对各类在线服务的管理监控,成熟的应用将沉淀一个业务解决方案,快速复用到相似的业务场景; 可以参考如下图 多用户 对比多租户来说比较好理解,类似于一个网站/平台有多少用户注册,留存多少用户,共享所有资源,没有划分资源限制(不...

2020-11-15 13:10:19 2721

原创 数据中台学习笔记 --- 实战中的中台总结

关于中台的概念铺垫请参考前几篇的介绍:中台一中台二本篇主要叙述一下实际的中台是什么? 我们日常总听到的数据中台、业务中台、运营中台其实是跟我们所在的部门、事业部、事业群一样,都是人/数据/应用的集合; 对于大厂来说由于业务/数据快速发展到那一定成度,不是一个简单的数据仓库或者数据湖可以覆盖所有业务场景情况下提出的; 目的是为了解决人/数据/资源的高效运用和调度; 举个例子我们常见的中台在大厂中可以这样存在 例子一 人员

2020-11-12 23:46:57 745

原创 准确率、精确率、召回率、F1(F-Measure)都是什么?

机器学习ML、自然语言处理NLP、信息检索IR等领域,评估(Evaluation)是一个必要的工作,而其评论价值指标往往有如下几点: 准确率 Accuracy; 精准率 Precision; 召回率 Recal; F1-Measure; TP: True Positive 把正的判断为正的数目True Positive,判断正确,且判为了正,即正的预测为正的; FN:False Negative 把正的错判为负的数..

2020-11-10 23:41:43 973

原创 LeetCode --- 859. Buddy Strings 解题报告

Given two stringsAandBof lowercase letters, returntrueif you can swap two letters inAso the result is equal toB, otherwise, returnfalse.Swapping letters is defined as taking two indicesiandj(0-indexed) such thati != jand swapping the char...

2020-11-08 23:53:43 333

原创 数据仓库Build The Data Warehouse(William H.Inmon)学习笔记 --- 第十章、数据仓库的设计复查要目

零、简介 在操作性环境中确保质量的最有效的方法之一是设计复查。通过设计符复查可以检测到各种错误,并在编码之前更正这些错误,能得到很大的好处; 在操作型环境中,设计复查通常是在一个应用的物理设计完成以后进行的。操作型设计复查所围绕的中心问题的类型有以下这些: 事务处理性能; 批窗口是否适当; 系统可用性; 容量; 项目准备的充分性; 用户需要..

2020-11-02 00:48:19 509 1

斯坦福文本分类朴素贝叶斯实现课程讲义2021

斯坦福文本分类朴素贝叶斯算法实现课程讲义2021

2022-06-19

An Introduction to HTAP

An Introduction to HTAP

2022-04-26

datax.tar.gz

阿里开源ETL工具DataX

2021-08-22

ImpalaJDBC41.jar

ImpalaJDBC

2021-08-22

hive_jdbc_2.6.2.1002.zip

hive_jdbc_2.6.2.1002

2021-08-22

ClouderaHiveODBC.dmg

ClouderaHiveODBC

2021-08-22

JVM内存管理知识思维导图.png

JVM内存管理知识思维导图.png

2020-05-22

深入浅出Otter与Canal.pdf

深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf

2020-02-29

weworkapi_python-master.zip

企业微信加密解密函数代码示例weworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zip

2020-01-20

实时指标计算引擎-Spark-Part_1_杨鑫_2019-12-19.pptx

实时指标计算引擎-Spark-Part_1_杨鑫

2019-12-19

Griffin数据质量管理技术调研.pdf

Griffin数据质量管理技术调研.pdf

2019-12-09

Kylin多维分析.pdf

Kylin多维分析.pdf

2019-12-05

CDH5.17版本Hue接入HBase步骤.pdf

CDH5.17版本Hue接入HBase步骤.pdfC

2019-11-28

Apache Kylin竞品分析.pdf

Apache Kylin竞品分析.pdf

2019-11-18

_bz2.cpython-36m-x86_64-linux-gnu.so

_bz2.cpython-36m-x86_64-linux-gnu.so,

2019-11-07

presto-cli-0.223-executable.jar

presto-cli-0.223-executable.jar

2019-11-07

数据仓库规范设计.pdf

数据仓库规范设计.pdf

2019-11-04

基础算法-LP算法_线性规划问题.pptx

基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx

2019-10-17

基础算法-递归-杨鑫20191010.pptx

基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx

2019-10-17

基础算法 - 动态规划-2019-08-01.pptx

基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx

2019-10-17

KNN实现水果分类的数据集

KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集

2019-10-17

机器学习算法-神经网络LSTM

机器学习算法-神经网络.pptx

2019-09-21

ML-朴素贝叶斯-2019-07-01.pdf

ML-朴素贝叶斯-2019-07-01.pdf

2019-07-02

udfs-2.0.4-SNAPSHOT.jar

Presto的UDF函数,基本可以覆盖Hive的大多数情况。

2019-06-26

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

2019-03-06

Presto资源管理Rest API 文档

Presto资源管理Rest API 文档

2018-12-01

ACM学习路线导图

ACM学习路线导图

2018-11-14

Hadoop ResourceManager API

Hadoop ResourceManager API

2018-11-07

Kylin调研报告

Kylin (MOLAP - Multidimensional OnlineAnalytical Processing)调研报告

2018-10-29

ALL in python学习PPT

ALL in python学习PPT

2018-10-28

presto-cli

presto-cli,presto-cli,

2018-10-22

python pep8编码规范

python pep8编码规范

2018-10-17

Confluence-5.6.6-language-pack-zh_CN.jar

Confluence-5.6.6-language-pack-zh_CN.jar,防止confluence乱码的jar包

2018-09-30

AzkabanAPI接口文档汇总

AzkabanAPI接口文档汇总

2018-09-26

MachineLearning-相似度距离公式

MachineLearning-相似度距离公式

2018-09-21

Azkaban元数据库分析

Azkaban元数据库分析,

2018-09-19

Goods: Organizing Google’s Datasets

Goods: Organizing Google’s Datasets,Goods: Organizing Google’s Datasets

2018-09-06

Kudu- Storage for Fast Analytics on Fast Data

Kudu- Storage for Fast Analytics on Fast Data,Kudu- Storage for Fast Analytics on Fast Data

2017-12-21

mongodb-linux-x86_64-3.4.6

mongodb-linux-x86_64-3.4.6,很好用的客户端,请下载使用。

2017-10-17

mongo-hadoop-core-2.0.0

mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

2017-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除