自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

  • 博客(2172)
  • 资源 (188)
  • 论坛 (1)
  • 收藏
  • 关注

原创 数据仓库Build The Data Warehouse(William H.Inmon)学习笔记目录

Inmon是经典的范式建模大师,该笔记目录是数据仓库Build The Data Warehouse(William H.Inmon)的学习笔记,内容包含书内的经典干货、随手结合实际经验的笔记心得;有相关的数据仓库建模问题可以私聊我讨论,互相学习!--- 文章持续更新中!---第一章数据仓库Build The Data Warehouse(William H.Inmon)学习笔记 --- 第一章、决策支持系统的发展第二章数据仓库Build The Data W...

2020-07-16 15:44:41 400

原创 设计模式学习笔记汇总目录

这里的的学习笔记包含JavaSE和J2EE两部分,持续更新中!其中关于学习的参考资料如下:1.菜鸟设计模式2.Head First Design Patterns(书、强烈推荐);3.大话设计模式(书、适合入门);相关的代码下载:GitHub源码设计模式学习笔记 --- 1.简单工厂模式 设计模式学习笔记 --- 2.抽象工厂模式 设计模式学习笔记 --- 3.单...

2020-04-28 21:08:53 348

原创 大数据之路、阿里巴巴大数据实践读书笔记目录

该系列持续更新中:第一章:大数据之路、阿里巴巴大数据实践读书笔记 --- 第一章、总述第二章:大数据之路、阿里巴巴大数据实践读书笔记 --- 第二章、日志采集第三章:大数据之路、阿里巴巴大数据实践读书笔记 --- 第三章、数据同步...

2020-01-12 02:09:19 985

原创 送给订阅我专栏同学们一封信

非常感谢大家来订阅我的专栏,最早开始写博客是由于为了记笔记,大学时期打ACM,玩C/C++,毕业之后从事大数据 + 机器学习。后来逐渐变成了把自己做过的每一次项目实战的问题,技术调研、开发技能等都记录下来,到现在形成了简单的部分规模专栏。因此大家在看的时候有些文章可能不太具体,但是我会为订阅同学提供好服务。订阅的同学如果对我的文章或者某些技术问题感兴趣或者不懂得,可以私信问...

2020-01-05 19:55:40 1154 1

原创 LeetCode --- 925. Long Pressed Name 解题报告

Your friend is typing hisnameinto a keyboard. Sometimes, when typing a characterc, the key might getlong pressed, and the character will be typed 1 or more times.You examine thetypedcharacters of the keyboard. ReturnTrueif it is possible that it ...

2021-04-24 21:32:28 37

原创 LeetCode --- 922. Sort Array By Parity II 解题报告

Given an array of integersnums, half of the integers innumsareodd, and the other half areeven.Sort the array so that whenevernums[i]is odd,iisodd, and whenevernums[i]is even,iiseven.Returnany answer array that satisfies this condition....

2021-04-24 01:49:02 63

原创 LeetCode --- 917. Reverse Only Letters 解题报告

Given a stringS, return the "reversed" string where all characters that are not a letterstay in the same place, and all letters reverse their positions.Example 1:Input: "ab-cd"Output: "dc-ba"Example 2:Input: "a-bC-dEf-ghIj"Output: "j-Ih-g...

2021-04-22 00:48:37 48

原创 LeetCode --- 914. X of a Kind in a Deck of Cards 解题报告

In a deck of cards, each card has an integer written on it.Returntrueif and only if you can chooseX >= 2such that it is possible to split the entire deck into 1 or more groups of cards, where:Each group has exactlyXcards. All the cards in eac...

2021-04-18 17:53:56 19

原创 LeetCode --- 908. Smallest Range I 解题报告

Given an arrayAof integers, for each integerA[i]we may choose anyxwith-K <= x <= K, and addxtoA[i].After this process, we have some arrayB.Return the smallest possible difference between the maximum value ofBand the minimum value of...

2021-04-10 21:38:50 38

原创 LeetCode --- 905. Sort Array By Parity 解题报告

Given an arrayAof non-negative integers, return an array consisting of all the even elements ofA, followed by all the odd elements ofA.You may return any answer array that satisfies this condition.Example 1:Input: [3,1,2,4]Output: [2,4,3,1]...

2021-03-29 22:59:48 50

原创 数据架构在公司发展的历程节点

我们无论在谈论数据平台、数据仓库、还是数据湖以及数据中台。都是一个公司数据架构或业务发展的必经阶段,这里我梳理下我之前经历过公司的数据发展历程。第一期:原始需求,需要查看业务数据的离线报表。一般使用Python脚本编写,连接业务从库,获取数据组装成为Excel利用邮件发出。第二期:由于开发速度慢,业务越来越多,通常要写上千行的SQL,维护成本极高。因此开发了邮件报表系统。第三期:参数分析的数据量越来越大,单独的对业务从库查询并不能满足需求。隐私考虑使用分布式存储的数据仓库Hiv...

2021-03-28 17:07:04 78

原创 数据开发定要思考清晰的一些事情

来新公司大约有半年多,感受还是很深刻的尤其之前一直在小公司或者创业公司深耕多年,从基础开发做到TeamLeader。从最开始的一个小事情到整个业务数据的布局都要重新思考。2020年自己从舒适圈进入了梦寐已久的大厂经过了半年的考核,发现自己的很多思维是不适合在大厂中适应的。我们之前在小公司或者创业公司,只需要做好Leader定制的方向,去完成对应的KPI即可,完成业务提出来的需求,就会拿到很好的KPI,我们称之为认真做事。如下是在大厂的个人感受(不涉及任何其他感受): 在大厂建议大家有一...

2021-03-28 16:35:00 74

原创 业务数据分层设计

数据分层 数据集成 维表数据 贴源数据 基础数据 汇总数据 基础指标 衍生指标 监管/战略/决策 数据服务体系 元数据管理 周期任务调度 数据质量管理 数据混淆系统 数据监控报警 数据治理体系 异常数据修复 干扰废弃数据 ..

2021-03-28 15:31:15 60

原创 记一次SQL左关联出现空结果的情况

前言 最近在用SQL统计数据的时候发现一个特别有意思的问题(剧透一下,我自己挖的坑),我在使用左关联的时发现结果竟是空。那么我们复现一下场景问题和问题的解决方案。过程 有如下一段左关联的SQL,t_xxx_1表是非空的数据集合,t_xxx_2 是一个空的数据集合,那么我们简单的就可以得出这个LEFT OUTER JOIN的结果是t_xxx_1的原始数据。对吗?不对....!!!SELECT t_1.id AS id, t_1.name A...

2021-02-26 00:05:29 255 1

原创 LeetCode --- 897. Increasing Order Search Tree 解题报告

Given therootof a binary search tree, rearrange the tree inin-orderso that the leftmost node in the tree is now the root of the tree, and every node has no left child and only one right child.Example 1:Input: root = [5,3,6,2,4,null,8,1,null,n...

2021-02-21 00:24:07 55

原创 LeetCode --- 896. Monotonic Array 解题报告

An array ismonotonicif it is either monotone increasing or monotone decreasing.An arrayAis monotone increasing if for alli <= j,A[i] <= A[j]. An arrayAis monotone decreasing if for alli <= j,A[i] >= A[j].Returntrueif and only i...

2021-02-19 00:50:20 64

原创 LeetCode --- 893. Groups of Special-Equivalent Strings 解题报告

You are given an arrayAof strings.AmoveontoSconsists of swapping any two even indexed characters ofS, or any two odd indexed characters ofS.Two stringsSandTarespecial-equivalentif after any number ofmoves ontoS,S == T.For example,S ...

2021-02-18 00:25:28 57

原创 LeetCode --- 892. Surface Area of 3D Shapes 解题报告

You are given ann x ngridwhere you have placed some1 x 1 x 1cubes. Each valuev = grid[i][j]represents a tower ofvcubes placed on top of cell(i, j).After placing these cubes, you have decided to glue any directly adjacent cubes to each other, fo...

2021-02-16 19:30:01 47

原创 LeetCode --- 888. Fair Candy Swap 解题报告

Alice and Bob have candy bars of different sizes:A[i]is the size of thei-th bar of candy that Alice has, andB[j]is the size of thej-th bar of candy that Bob has.Since they are friends, they would like to exchange one candy bar each so that after th...

2021-02-14 01:00:31 32

原创 LeetCode --- 884. Uncommon Words from Two Sentences 解题报告

We are given two sentencesAandB. (Asentenceis a string of space separated words. Eachwordconsists only of lowercase letters.)A word isuncommonif it appears exactly once in one of the sentences, and does not appear in the other sentence.Retur...

2021-02-03 23:49:26 56

原创 Python使用openpyxl写入Excel报错ValueError: Cannot convert to excel

报错如下:ValueError: Cannot convert to excel原因是因为我们使用语句wb = openpyxl.Workbook()ws1 = wb.active()ws = wb.create_sheet("Sheet1", 0)// 格式 [[],[]]// 报错 ws.append(i)// 正确for i in list_result: ws.append(i)原本我要写入Excel的是[[],[],[]] 格式的数据,但是由于不支持复合

2021-02-02 11:32:50 577 1

原创 LeetCode --- 883. Projection Area of 3D Shapes 解题报告

You are given ann x ngridwhere we place some1 x 1 x 1cubes that are axis-aligned with thex,y, andzaxes.Each valuev = grid[i][j]represents a tower ofvcubes placed on top of the cell(i, j).We view the projection of these cubes onto thexy,...

2021-01-26 01:28:45 55

原创 LeetCode --- 876. Middle of the Linked List 解题报告

Given a non-empty, singlylinked list with head nodehead, returnamiddle node of linked list.If there are two middle nodes, return the second middle node.Example 1:Input: [1,2,3,4,5]Output: Node 3 from this list (Serialization: [3,4,5])The re...

2021-01-23 01:54:23 58 2

原创 用户画像 - 实现画像数据

我们一般可能会在数据仓库或者数据中台中构建画像相关的数据表,例如用户画像。 我们构建画像的时候很简单,可以通过事实表和维表来构建画像表。 思路-相关表如下 事实表(明细表)t_1 维表-1 t_2 (有与t_1关联的字段) 维表-2 t_3(有与t_1关联的字段) 维表-3 t_4 (有与t_1关联的字段) 维表-4 t_5(有与t_1关联的字段) ... 通过关...

2021-01-20 23:14:09 215

原创 LeetCode --- 874. Walking Robot Simulation 解题报告

A robot on an infinite XY-plane starts at point(0, 0)and faces north. The robot can receive one of three possible types ofcommands:-2: turn left90degrees, -1: turn right90degrees, or 1 <= k <= 9: move forwardkunits.Some of the grid squa...

2021-01-20 01:06:57 64

原创 用户画像 - 方法论与工程化解决方案学习笔记

一、什么是画像、特征、标签? 画像 > 标签 > 特征; 画像:包含标签和特征,是由特征和标签组成的多维度的描述或定位侧写和刻画; 特征:是一类细节性描述,例如统计值,比如某些聚合的金额、数量; 标签:是一类细节性描述的归纳总结,是对特征的一层抽象理解,例如根据金额、数量等进行的评估头部客户?腰部客户等; 标签分类 业务标签; 模型标签; ..

2021-01-15 02:35:24 188 1

原创 LeetCode --- 872. Leaf-Similar Trees 解题报告

Consider all the leaves of a binary tree, fromleft to right order, the values of thoseleaves form aleaf value sequence.For example, in the given tree above, the leaf value sequence is(6, 7, 4, 9, 8).Two binary trees are consideredleaf-similarif...

2021-01-11 00:09:48 64

原创 LeetCode --- 868. Binary Gap 解题报告

Given a positive integern, find and returnthelongest distancebetween any twoadjacent1's in the binary representation ofn. If there are no two adjacent1's, return0.Two1's areadjacentif there are only0's separating them (possibly no0's). The...

2021-01-07 23:47:58 63

原创 LeetCode --- 867. Transpose Matrix 解题报告

Given amatrixA, return the transpose ofA.The transpose of a matrix is the matrix flipped over it's main diagonal, switching the row and column indices of the matrix.Example 1:Input: [[1,2,3],[4,5,6],[7,8,9]]Output: [[1,4,7],[2,5,8],[3,6,9]]...

2021-01-03 12:46:39 81 4

原创 LeetCode --- 860. Lemonade Change 解题报告

At a lemonade stand, each lemonade costs$5.Customers are standing in a queue to buy from you, and order one at a time (in the order specified bybills).Each customer will only buy one lemonade andpay with either a$5,$10, or$20bill. You must pro...

2020-11-29 21:51:18 124

原创 数据工程师的开发自检素养

一、简述 在日常的快速开发和项目迭代工作中,我们通常以结果为导向开发完成各种需求,也处理各种上线前后的Bug。虽然目前有很多的自动化数据质量监测和检测工具,但对于自己开发产出的数据做自检是一个有素养的数据工程师必备的好习惯。我们通过自己的人肉质检可以在测试或预发环境以及上线前解决一些肉眼可见的小Bug,再经过多维度数据对比通常可以解决大部分易察觉的Bug。提高项目进度以及整体流程的时间把控,提升数据/项目质量。二、具体思路三、总结 目前很多自动化组件/...

2020-11-29 21:24:12 265

原创 脏数据清洗实践方案

一、概述 无论对于数据仓库/数据湖/数据中台,都会存在大量的脏数据,当我们在使用一张数据表时,发现其中出现大量的重复数据,活着其中的字段信息对应错误,原本ID:101 对应的name时YY,但实际存储的是XX,这种脏数据的场景就不举太多例子了肯定很常见。那么我来总结一个解决方案。 二、解决方案 现在有一张表t_1(按天分区全量),我们某一天发现t_1出现了概述中的提到的脏数据情况,那么我们大多数第一反应就是去找t_1_上游表,反馈给这个表的负责人(思路没问..

2020-11-22 12:44:26 472

原创 理解多租户与多用户

多租户 租户是一个团队/组的概念,租户当中可以加入不同的成员,每个成员都可以在租户里创建自己的应用,在应用中可以选择、创建、串联各种不同的服务(通用/模型/规则/第三方服务)去服务一个具体业务场景,以及对各类在线服务的管理监控,成熟的应用将沉淀一个业务解决方案,快速复用到相似的业务场景; 可以参考如下图 多用户 对比多租户来说比较好理解,类似于一个网站/平台有多少用户注册,留存多少用户,共享所有资源,没有划分资源限制(不...

2020-11-15 13:10:19 539

原创 数据中台学习笔记 --- 实战中的中台总结

关于中台的概念铺垫请参考前几篇的介绍:中台一中台二本篇主要叙述一下实际的中台是什么? 我们日常总听到的数据中台、业务中台、运营中台其实是跟我们所在的部门、事业部、事业群一样,都是人/数据/应用的集合; 对于大厂来说由于业务/数据快速发展到那一定成度,不是一个简单的数据仓库或者数据湖可以覆盖所有业务场景情况下提出的; 目的是为了解决人/数据/资源的高效运用和调度; 举个例子我们常见的中台在大厂中可以这样存在 例子一 人员

2020-11-12 23:46:57 268

原创 准确率、精确率、召回率、F1(F-Measure)都是什么?

机器学习ML、自然语言处理NLP、信息检索IR等领域,评估(Evaluation)是一个必要的工作,而其评论价值指标往往有如下几点: 准确率 Accuracy; 精准率 Precision; 召回率 Recal; F1-Measure; TP: True Positive 把正的判断为正的数目True Positive,判断正确,且判为了正,即正的预测为正的; FN:False Negative 把正的错判为负的数..

2020-11-10 23:41:43 208

原创 LeetCode --- 859. Buddy Strings 解题报告

Given two stringsAandBof lowercase letters, returntrueif you can swap two letters inAso the result is equal toB, otherwise, returnfalse.Swapping letters is defined as taking two indicesiandj(0-indexed) such thati != jand swapping the char...

2020-11-08 23:53:43 183

原创 数据仓库Build The Data Warehouse(William H.Inmon)学习笔记 --- 第十章、数据仓库的设计复查要目

零、简介 在操作性环境中确保质量的最有效的方法之一是设计复查。通过设计符复查可以检测到各种错误,并在编码之前更正这些错误,能得到很大的好处; 在操作型环境中,设计复查通常是在一个应用的物理设计完成以后进行的。操作型设计复查所围绕的中心问题的类型有以下这些: 事务处理性能; 批窗口是否适当; 系统可用性; 容量; 项目准备的充分性; 用户需要..

2020-11-02 00:48:19 164 1

原创 数据仓库Build The Data Warehouse(William H.Inmon)学习笔记 --- 第九章、迁移到体系结构设计环境

介绍 迁移到体系结构设计的数据仓库环境中的过程,是一个逐步的,每次只需要完成有限的可提交的迁移工作。实现的最为成功的体系结果设计环境,是那些每次一遍的方式建立的数据仓库环境。 这样建立数据仓库只需要最少的人力资源,对现存应用环境造成的破坏也必定是最小的。对这种重复的开发而言,开发规模和速度都很重要,结果也必须能够快速交付; 一、一种迁移方案 迁移方案的起点是一个数据模型。数据模型描述企业信息需求,它指出一个企业所需要的,而并不一定是企业当前..

2020-10-19 23:29:06 126

原创 数据仓库Build The Data Warehouse(William H.Inmon)学习笔记 --- 第八章、外部数据/非结构化数据与数据仓库

零 大部分组织是以现有系统为来源的数据(即企业的内部数据)上建立第一个数据仓库。在绝大部分情况下,从现有的系统抽取的数据为内部结构化数据。数据来自于企业内部,并且数据已经被换成一种规则的格式; 数据仓库式存储外部与结构化数据的理想场所。如果外部数据与非结构化数据没有存放在一个集中确定的位置,势必会产生一些问题。下图就是当外部数据与非结构化数据以非规范的形式进入企业时,就失去了数据来源的标识,并且不管怎么样有次序的使用数据都不存在数据间的协同; ...

2020-10-13 23:56:36 313

原创 LeetCode --- 852. Peak Index in a Mountain Array 解题报告

Let's call an arrayarramountainif the following properties hold:arr.length >= 3 There exists someiwith0 < i< arr.length - 1such that: arr[0] < arr[1] < ... arr[i-1] < arr[i] arr[i] > arr[i+1] > ... > arr[arr.length...

2020-10-06 13:31:21 192 1

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

2019-03-06

Griffin数据质量管理技术调研.pdf

Griffin数据质量管理技术调研.pdf

2019-12-09

ACM学习路线导图

ACM学习路线导图

2018-11-14

Confluence-5.6.6-language-pack-zh_CN.jar

Confluence-5.6.6-language-pack-zh_CN.jar,防止confluence乱码的jar包

2018-09-30

KNN实现水果分类的数据集

KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集

2019-10-17

Python对Excel操作详解

Python对Excel操作详解,很好用,里面有xlrd, xlwt怎么使用。

2016-09-13

C语言实现串存储

C语言实现串存储

2015-09-08

数据仓库规范设计.pdf

数据仓库规范设计.pdf

2019-11-04

AzkabanAPI接口文档汇总

AzkabanAPI接口文档汇总

2018-09-26

Apache Kylin竞品分析.pdf

Apache Kylin竞品分析.pdf

2019-11-18

宽依赖与窄依赖

宽依赖与窄依赖,很好用的PPT,对于spreak的宽依赖与窄依赖很清楚,分享给有用的朋友。

2016-05-06

机器学习算法-神经网络LSTM

机器学习算法-神经网络.pptx

2014-03-06

英文停用词表Stop

英文停用词表Stop,很好用,有需要的去下载

2016-03-29

ElasticSearch中文文档(新版)

ElasticSearch中文文档(新版)

2017-06-23

完整的VISIO教程.ppt

完整的VISIO教程.ppt

2017-03-23

_bz2.cpython-36m-x86_64-linux-gnu.so

_bz2.cpython-36m-x86_64-linux-gnu.so,

2019-11-07

Hive编程指南

Hive编程指南 pdf,内容很不错适合入门hive编程的朋友。

2017-09-13

mongodb-linux-x86_64-3.4.6

mongodb-linux-x86_64-3.4.6,很好用的客户端,请下载使用。

2017-10-17

软件开发文档模板[全套]

软件开发文档模板[全套]

2017-04-07

demjson-2.2.4

demjson-2.2.4很好用,适合于python操作json使用。

2016-08-02

pandas-0.19.2.tar.gz

pandas-0.19.2.tar.gz 用于开发操作数据分析等

2017-02-21

串的块链存储表示

串的块链存储表示

2015-09-08

Google DataFLow Paper

DataFlow 英文论文,需要的去下载。12页。

2017-06-12

cx_Oracle-5.1.2-11g.win-amd64-py2.7.msi

cx_Oracle-5.1.2-11g.win-amd64-py2.7.msi

2016-08-02

cyrus-sasl-plain-2.1.26-20

cyrus-sasl-plain-2.1.26-20,用于安装sasl。

2016-10-08

深入浅出Otter与Canal.pdf

深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf

2020-02-29

Hadoop海量文本处理1

Hadoop海量文本处理1

2015-09-02

冒泡排序C语言

冒泡排序C语言实现,很好用,提供给大家一起分享。

2016-02-18

xpdfbin-win-3.04.zip

xpdfbin-win-3.04.zip

2015-04-05

easygui-0.96.tar.gz

easygui-0.96.tar.gz 在linux下的使用,很好用,有需要的自己去下载吧。

2016-06-09

hbase-indexer

hbase-indexer, 便于通过solr将hbase中的数据变动建立索引

2017-01-23

python pep8编码规范

python pep8编码规范

2018-10-17

presto-cli

presto-cli,presto-cli,

2018-10-22

开源SuperSet、MetaBD、Redash简单对比

开源SuperSet、MetaBD、Redash简单对比

2020-07-22

C语言实现广义表的头尾链表存储表示

C语言实现广义表的头尾链表存储表示

2015-06-03

C语言实现prim算法

C语言实现prim算法

2015-08-12

Sqoop中文文档

Sqoop中文文档,对于数据导入入门很有帮助。

2016-11-11

JVM内存管理知识思维导图.png

JVM内存管理知识思维导图.png

2020-05-22

c语言实现单向循环链表

c语言实现单向循环链表

2015-09-01

easygui-docs-0.96.zip

easygui-docs-0.96.zip,在windows下的文档说明,很好用!

2016-06-09

杨鑫newlfe的留言板

发表于 2020-01-02 最后回复 2020-04-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除