自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

  • 博客(26)
  • 资源 (192)
  • 收藏
  • 关注

原创 LeetCode --- 581. Shortest Unsorted Continuous Subarray 解题报告

Given an integer array, you need to find onecontinuous subarraythat if you only sort this subarray in ascending order, then the whole array will be sorted in ascending order, too.You need to find ...

2019-12-30 10:37:51 281

原创 设计模式 --- 简单工厂模式

一、什么是简单工厂模式简单的说就是提供创建实例的功能,而无需关心具体实现。简单工厂模式属于创建型模式又叫做静态工厂方法模式,它属于类创建型模式。在简单工厂模式中,可以根据参数的不同返回不同类的实例。但不属于23种GOF设计模式之一。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式,可以理解为是不同工厂模式的一个特殊实例。...

2019-12-29 14:36:37 339

原创 管理驾驶舱 or 领导驾驶舱

管理驾驶舱或者领导驾驶舱都是一个概念,就是将我们日常或者周期性的总结性指标实时或周期的展示在可视化屏幕上/Dashboard。管理驾驶舱是一款为企业内部领导及相关高管提供的指标分析型系统。打破数据隔离,实现指标分析及决策场景落地。通过详尽的指标体系,实时反映企业的运行状态,将采集的数据形象化、直观化、具体化。“管理驾驶舱”充分融合了人脑科学、管理科学和信息科学的精华,以人为产品的核心,从管理者...

2019-12-29 02:26:31 6074

原创 Hive SQL 修改表的字段类型、名字、注释

操作格式:ALTER TABLE tableName(表名) CHANGE COLUMN 原字段名字 新字段名字 字段类型 COMMENT '名称- 新的字段备注'操作样例:ALTER TABLE kylin.kylin_premium_quit_actual CHANGE COLUMN sub_point_id sub_point_id String COMMENT '子账户...

2019-12-23 18:45:30 8920 1

原创 HIve SQL Union ALL 查询乱序

我们使用简单的SQL去测试是没有问题的,但是当我们使用两个SQL的结果去Union ALL 并返回的时候,就会发现,多次查询的返回结果顺序经常变化。建议每次Union all后再次封装一个字查询后统一返回,外部再group by/order by 等,防止查询结果无序。我们去找到了源代码版本2.7.1,查看实现UnionOperator类实现的功能使用了ReturnObjectInspec...

2019-12-19 23:02:59 2435

原创 Hive SQL 必知 Union All 与 Union

发文当前Hive最新版本是hive-storage-2.7.1参考链接:http://archive.apache.org/dist/hive/下面是Hive WIKI 中记录的内容: The language also supports union all,forexample,ifwe suppose there are two different tabl...

2019-12-19 23:01:42 2014

原创 深入浅出Spark实时处理(一) --- Spark Streaming

一、Spark StreamingSpark Streaming 是核心Spark API的扩展,可以实现数据流的可伸缩,高吞吐量,容错流处理。可以接Kafka、Flume、Kinesis(亚马逊的流处理平台),或者TCP sockets,并且可以使用复杂的高级函数(Map、Reduce、Join和Window)来处理数据。完成后可以讲数据发送到文件系统中、数据库、实时Dashboard。...

2019-12-19 00:06:59 909

原创 Python私有源使用文档

一、安装:/xxxx/.py3/bin/pip install pypiservercd /data1mkdir -p ./python-repository/packagespypi-server -p 18089 -P . -a . /xxx/python-repository/packages# 上述的启动命令中 -p(小写)指定的是启动的端口,-P(大写)指定的是密码文件,...

2019-12-17 15:17:17 482

原创 Cloudera对HDFS做Balance数据均衡/数据平衡/数据倾斜

如果说Hadoop集群的某些DataNode存储数据达到阈值或者出现数据倾斜的情况,任务会高频的打到很多“经常性访问的”数据节点。这个时候某些节点资源会出现紧张或者异常情况,如下图:其中HDFS有7个节点出现异常情况,我们点击查看详情。具体异常信息如上图。我们对于这种数据倾斜或者存储异常的情况(重启单节点服务无效的时候)。我们可以点击操作,点击重新平衡。这时系统会...

2019-12-16 22:34:19 2299

原创 LeetCode --- 559. Maximum Depth of N-ary Tree 解题报告

Given a n-ary tree, find its maximum depth.The maximum depth is the number of nodes along the longest path from the root node down to the farthest leaf node.Nary-Tree input serializationis repres...

2019-12-16 11:07:22 322

原创 Python实现Presto节点状态监控

# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'from util.request_client import RequestClientfrom util.func_brain.time_func import TimeFuncfrom util.monitor import Monitorimport jsonclass Pr...

2019-12-13 15:13:25 1127

原创 Cloudera Manager API 梳理

版本V5.17,并向下兼容。healthSummary健康汇总: 状态 CODE 备注 可用 GOOD 不可用 DISABLED 异常但可用 CONCERNING serviceState服务状态: 状态 CODE ...

2019-12-13 14:43:48 879

原创 cm_api报错except TypeError, tex: 或者 except urllib2.HTTPError, ex:

cm_api13.0.0版本报错except urllib2.HTTPError, ex:19.xx报错except TypeError, tex: 报错原因是因为Python版本问题,文档中写得很清楚必须使用Python2.7或者2.6才可以使用。使用其他版本基本上都会报上面的错误,因此可以直接切换版本就不会报错了。...

2019-12-13 10:41:30 620

原创 Presto进程管理实现监控&宕机重启

方案一:#!/bin/bash. /etc/profilecheck() { ip_addr=$(ifconfig -a|grep -o -e 'inet addr:[0-9]\{1,3\}.[0-9]\{1,3\}.[0-9]\{1,3\}.[0-9]\{1,3\}'|grep -v "127.0.0"|awk '{print $2}') # 报警通知 ip_addr Pres...

2019-12-09 22:11:27 1246

原创 Crontab调用shell脚本函数中变量为空

问题:在写一个任务脚本shell,Crontab运行后发现函数中的变量为空。但是不使用Crontab,直接执行shell可以运行,变量有值。解决方案:方法一:原因是Crontab运行时的环境与脚本的环境不一致,在脚本中加上刷新环境变量的就好了。如下:check函数就出现了上面描述的问题。我们在#!/bin/bash后面加上. /etc/profil...

2019-12-09 21:04:30 927

原创 LeetCode --- 558. Quad Tree Intersection 解题报告

ShareA quadtree is a tree data in which each internal node has exactly four children:topLeft,topRight,bottomLeftandbottomRight. Quad trees are often used to partition a two-dimensional space by...

2019-12-09 12:43:52 276

原创 项目ReadMe.md规范

以下是必备属性:Background 项目背景 Features 功能特色 Structure 项目结构 Requirement 环境基础 Install 安装 Usage 如何使用 Exam...

2019-12-06 11:47:11 629 1

原创 什么是度量与维度和维度的基数(Cardinality)?

维度和度量 维度指的是观察数据的角度,如对于一张订单来说,维度有订单生成时间、地区、产品类别、产品等等。 维度一般是一个离散的值,比如时间维度上的每一个独立日起,地区上每一个地点,因此统计时可以将相同维度的记录聚合在一起。进行聚合计算。 度量就是被聚合的统计值,也就是运算的结果,如对于一张订单,他的销售量和销售金额是两种度量,是需要统计聚合的值。...

2019-12-05 21:17:07 3662

原创 Kylin中LookUp Table表

Kylin中LookUpTable是什么呢?Lookup Table包含对事实表的某些列进行扩充说明的字段。在Kylin的样例中给出sample cube(Kylin_sales_cube)- 其中FactTable为购买记录,Lookup Table有两个:用于对购买日期PART_DT、商品的LEFA_CATEG_ID与LSTG_SITE_ID字段进行扩展说明;因此LookUp Tabl...

2019-12-05 21:14:50 1234

原创 Kylin中事实表与维度表

事实表(FactTable)指的是存储有事实记录的表,包含每个时间的具体要素,以及具体发生的事情如系统记录、销售记录以及库存记录等。 维度表(Dimension Table)是对事实表中时间要素的描述信息。它保存了维度属性值,可以跟事实表关联:相当于把事实表上经常重复出现的属性抽取、规范出来用作一张表。 常见的维度表:日期表(日期对应的周月季度等属性)、地点表(包含国家、省...

2019-12-05 21:12:59 1890

原创 理解Kylin中Cube、Cuboid、Cube Segment

Cube和Cuboid和Cube Segment Cuboid在kylin中指定在某一种维度组合下所有计算的数据; Cube(Data Cube),即数据立方体,是一种常用于数据分析与索引的基数;它可以对原始数据建立多维度索引。简单来说,一个Cube就是许多按维度聚合的物化视图的集合; Cube Segment是指针对源数据中的某一个片段,计算出...

2019-12-05 21:11:07 3665 3

原创 Kylin操作手册

在读此文章前建议读一下核心概念:Kylin多维分析核心概念树立1.创建项目Project;2.导入数据 load hive table 通过表名导入数据; load hive table from tree 可以直接选择表; 最后是实时数据接入,Kafka等; 3.创建模型 输入模型名称,注意模型名称在整个Kylin应用下具有唯一性,而不是只在单个项...

2019-12-05 21:05:03 921

原创 Kylin分布式多维分析核心概念树立

一、Kylin是什么?什么叫做多维分析 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 所谓的多维分析是可以对于一份数据从多个角度、维度(大于等于二维)来分析处理。 二、Kylin具体能做什...

2019-12-05 21:03:03 377

原创 LeetCode --- 557. Reverse Words in a String III 解题报告

Given a string, you need to reverse the order of characters in each word within a sentence while still preserving whitespace and initial word order.Example 1:Input: "Let's take LeetCode contest"...

2019-12-03 10:48:50 257

原创 Kylin 添加用户

首先Kylin目前并不支持用户管理,但是可以自定义的在配置文件中添加。其余的LADP等等支持的方式这里不叙述,这里使用的是Spring的方式生成用户的密钥。首先实现一个生成密钥的方法,这里需要遵循Kylin生成密钥的算法类import org.springframework.security.crypto.bcrypt.BCryptPasswordEncoder;import or...

2019-12-02 21:10:26 941

原创 Presto配置数据源

首先登陆跳板机,然后使用ssh跳转到presto的master节点;然后“sudo su - ”, 切换root账户;然后cd/presto/etc/catalogcp ./旧配置文件名称.properties ./新配置文件名称.properties【注意】:新的配置文件名称中不能使用“.”来连接业务名称,例如”mysql_127.0.0.1_3306.propertie...

2019-12-02 16:00:07 2093

斯坦福文本分类朴素贝叶斯实现课程讲义2021

斯坦福文本分类朴素贝叶斯算法实现课程讲义2021

2022-06-19

An Introduction to HTAP

An Introduction to HTAP

2022-04-26

datax.tar.gz

阿里开源ETL工具DataX

2021-08-22

ImpalaJDBC41.jar

ImpalaJDBC

2021-08-22

hive_jdbc_2.6.2.1002.zip

hive_jdbc_2.6.2.1002

2021-08-22

ClouderaHiveODBC.dmg

ClouderaHiveODBC

2021-08-22

JVM内存管理知识思维导图.png

JVM内存管理知识思维导图.png

2020-05-22

深入浅出Otter与Canal.pdf

深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf

2020-02-29

weworkapi_python-master.zip

企业微信加密解密函数代码示例weworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zip

2020-01-20

实时指标计算引擎-Spark-Part_1_杨鑫_2019-12-19.pptx

实时指标计算引擎-Spark-Part_1_杨鑫

2019-12-19

Griffin数据质量管理技术调研.pdf

Griffin数据质量管理技术调研.pdf

2019-12-09

Kylin多维分析.pdf

Kylin多维分析.pdf

2019-12-05

CDH5.17版本Hue接入HBase步骤.pdf

CDH5.17版本Hue接入HBase步骤.pdfC

2019-11-28

Apache Kylin竞品分析.pdf

Apache Kylin竞品分析.pdf

2019-11-18

_bz2.cpython-36m-x86_64-linux-gnu.so

_bz2.cpython-36m-x86_64-linux-gnu.so,

2019-11-07

presto-cli-0.223-executable.jar

presto-cli-0.223-executable.jar

2019-11-07

数据仓库规范设计.pdf

数据仓库规范设计.pdf

2019-11-04

基础算法-LP算法_线性规划问题.pptx

基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx

2019-10-17

基础算法-递归-杨鑫20191010.pptx

基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx

2019-10-17

基础算法 - 动态规划-2019-08-01.pptx

基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx

2019-10-17

KNN实现水果分类的数据集

KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集

2019-10-17

机器学习算法-神经网络LSTM

机器学习算法-神经网络.pptx

2019-09-21

ML-朴素贝叶斯-2019-07-01.pdf

ML-朴素贝叶斯-2019-07-01.pdf

2019-07-02

udfs-2.0.4-SNAPSHOT.jar

Presto的UDF函数,基本可以覆盖Hive的大多数情况。

2019-06-26

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

2019-03-06

Presto资源管理Rest API 文档

Presto资源管理Rest API 文档

2018-12-01

ACM学习路线导图

ACM学习路线导图

2018-11-14

Hadoop ResourceManager API

Hadoop ResourceManager API

2018-11-07

Kylin调研报告

Kylin (MOLAP - Multidimensional OnlineAnalytical Processing)调研报告

2018-10-29

ALL in python学习PPT

ALL in python学习PPT

2018-10-28

presto-cli

presto-cli,presto-cli,

2018-10-22

python pep8编码规范

python pep8编码规范

2018-10-17

Confluence-5.6.6-language-pack-zh_CN.jar

Confluence-5.6.6-language-pack-zh_CN.jar,防止confluence乱码的jar包

2018-09-30

AzkabanAPI接口文档汇总

AzkabanAPI接口文档汇总

2018-09-26

MachineLearning-相似度距离公式

MachineLearning-相似度距离公式

2018-09-21

Azkaban元数据库分析

Azkaban元数据库分析,

2018-09-19

Goods: Organizing Google’s Datasets

Goods: Organizing Google’s Datasets,Goods: Organizing Google’s Datasets

2018-09-06

Kudu- Storage for Fast Analytics on Fast Data

Kudu- Storage for Fast Analytics on Fast Data,Kudu- Storage for Fast Analytics on Fast Data

2017-12-21

mongodb-linux-x86_64-3.4.6

mongodb-linux-x86_64-3.4.6,很好用的客户端,请下载使用。

2017-10-17

mongo-hadoop-core-2.0.0

mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

2017-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除