自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

  • 博客(27)
  • 资源 (192)
  • 收藏
  • 关注

原创 Hive UDF临时与永久函数注册函数

先上传jar包到HDFS永久注册:- CREATE FUNCTION 函数名 AS '包名.类名' USING JAR 'hdfs:///path/xxxx.jar';删除永久函数:- drop function 数据库名.函数名字;临时注册:add jar /path/xx.jar(存储在本地磁盘)// 临时注册UDF函数(hive会话生效)create temporar...

2018-09-30 17:48:15 6067

原创 Haskell --- 德州区间Range基本操作

德州区间 Range遍历1到20[1..20]遍历a到z['a'..'z']还可以设置步长[2,4..20] 代表的是 2 与 4 的差距,然后从2开始到20由于浮点数定义的原因:ghci> [0.1, 0.3 .. 1] [0.1,0.3,0.5,0.7,0.8999999999999999,1.0999999999999999] 因此在Range中避免使用...

2018-09-28 17:23:45 608

原创 Java实现对字符串Ascii 处理做数据混淆使用

import org.apache.hadoop.hive.ql.exec.UDF;/** * @author yangxin_ryan * 将要处理的字符串数据,每个字母的Ascii + 1 */public class StringAsciiValueUDF extends UDF { public String evaluate(String param) { ...

2018-09-27 18:25:31 2378

原创 HIve 注册UDF函数

add jar /path/udf/xxxxxxxxxx.jar// 临时注册UDF函数(hive重启后,失效)create temporary function db.functionName as 'udf.functionName';// 永久注册UDF函数create function functionName as 'udf.functionName' ...

2018-09-27 17:36:41 1399

原创 Azkaban API 接口文档汇总

 Authenticate Create a Project Delete a Project Upload a Project Zip Fetch Flows of a Project Fetch Jobs of a Flow Fetch Executions of a Flow Fetch Running Executions of a Flow Execute a Flo...

2018-09-26 15:15:13 8004

原创 Kafka学习笔记 --- 生产者producer与消费者关系comsumer

生产者:生产者可以将数据发布到所选择的topic(主题)中。生产者负责将记录分配到topic的哪一个 partition(分区)中。可以使用循环的方式来简单地实现负载均衡,也可以根据某些语义分区函数(例如:记录中的key)来完成。下面会介绍更多关于分区的使用。 消费者:消费者使用一个 消费组 名称来进行标识,发布到topic中的每条记录被分配给订阅消费组中的一个消费者实例.消费者实例可...

2018-09-25 19:25:16 1547

原创 Kafka学习笔记 --- Topic 与 offset

 我们知道流处理平台有以下三种特性: * 可以让你发布和订阅流式的记录。这一方面与消息队列或者企业消息系统类似。* 可以储存流式的记录,并且有较好的容错性。* 可以在流式记录产生时就进行处理。 Kafka适合什么样的场景? 它可以用于两大类别的应用: * 构造实时流数据管道,它可以在系统或应用之间可靠地获取数据。 (相当于message queue)...

2018-09-25 19:24:14 1689

原创 理解SparkStreaming的Checkpointing

streaming 应用程序必须 24 * 7 运行, 因此必须对应用逻辑无关的故障(例如, 系统故障, JVM 崩溃等)具有弹性. 为了可以这样做, Spark Streaming 需要 checkpoint 足够的信息到容错存储系统, 以便可以从故障中恢复.checkpoint 有两种类型的数据. Metadata checkpointing - 将定义 streaming 计算的信息...

2018-09-25 19:20:41 249

原创 Haskell --- 纯函数编程语言

Haskell是一种纯函数式编程语言(Purely Functional Programming Language)。 在函数式编程语言中,变量一旦赋值,就不能改变了,你已经声明了a式5,就不能改遍主意。 在纯函数式编程语言中,函数没有任何的副作用。函数式编程语言中的函数能做的唯一一件事情,就是求值并且返回结果。一开始可能觉得这样子会受到限制,然而好处也正源于此;若以相同的...

2018-09-25 01:47:43 1940

原创 理解SparkSteaming窗口函数操作window()

需求场景:     一些业务场景,例如网站记录,每隔1个小时计算最近两个小时的pv量,还有一种业务场景的话先在内存中做累加再更新到redis中做累加,比如说每隔5秒统计最近5秒的数据的总和,再刷到redis中做累加,因为频繁操作redis的话会存在问题。 重要参数:1.批处理间隔2.窗口间隔3.滑动时间间隔 原理介绍:       在Spark Streamin...

2018-09-23 17:22:16 1666

原创 数据仓库学习笔记 --- 数据仓库脱敏算法

2018-09-20 16:11:51 1856

原创 Azkaban元数据库分析

一、简述:Azkaban3 共 15 张表,分别用于存储任务调度,定时任务,触发器,项目 Project,工作 Flows,作业 Jobs 等。二、详细说明:l 表:active_executing_flows active_executing_flows 运行时的执行流 exec_id 执行的 id ...

2018-09-19 20:26:51 4868

原创 impala同步Hive元数据

//重新加载所有库中的所有表INVALIDATE METADATA//重新加载指定的某个表INVALIDATE METADATA [table] 

2018-09-17 20:48:54 862

原创 Azkaban高效使用手记

目录介绍:1.工程主界面功能2.执行主界面介绍调度配置 失败后(跳过失败的/结束任务) 失败通知 并行执行 动态传参数 跳过某一个任务3.执行操作立即执行定时执行4.查看日志 && 5.查看历史任务 一、工程主界面功能 Project:一个project包含一个工作流;一个project对应一个flow Flow:具体工作...

2018-09-16 21:57:58 1062

原创 Kudu元数据分析

获取Kudu元数据信息,目前直接查询Kudu表即可原因如下:(官网文档) Catalog TableThe catalog table is the central location for metadata of Kudu. It stores information about tables and tablets. The catalog table may not be r...

2018-09-12 21:14:33 1795

原创 Java 中Map的Put() 与putIfAbsent() 方法区别

public static void main(String[] args) { Map<String, String> map = new HashMap<>(); map.putIfAbsent("A", "1"); // get 出来的值会被覆盖 map.put("A", "3");

2018-09-12 10:20:50 2090

原创 Java实现汉字转换拼音功能

使用工具类: <dependency> <groupId>com.belerweb</groupId> <artifactId>pinyin4j</artifactId> <version>2.5.0</version></dependency>代码:

2018-09-11 14:57:14 7584 1

原创 Error Code: 1267. Illegal mix of collations (utf8_unicode_ci,IMPLICIT) and (utf8_general_ci,IMPLICIT

查询SQL两个表做join操作的时候出现如下问题Error Code: 1267. Illegal mix of collations (utf8_unicode_ci,IMPLICIT) and (utf8_general_ci,IMPLICIT) for operation '=' 解决方法:使用转换函数:CONVERT(b.fullCode USING utf8) CO...

2018-09-10 20:26:01 1681

原创 Impala学习笔记 --- Impala相对于Hive所使用的优化技术,性能对比

没有使用MapReduce进行并行计算,虽然MapReduce是非常好的并行计算框架,但它更多的面向批处理模式,而不是面向交互式的SQL执行。与MapReduce相比:Impala把整个查询分成一执行计划树,而不是一连串的MapReduce任务,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销...

2018-09-10 12:33:10 588

原创 Impala学习笔记 --- 功能架构与应用对比

简介:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。优点:1.Impala不需要把中间结果写入磁...

2018-09-10 12:24:41 350

原创 Kudu分区 --- 高级部分

您可以组合 HASH 和 RANGE 分区来创建更复杂的分区模式。您可以指定零个或多个 HASH 定义,后跟零个或一个 RANGE 定义。每个定义可以包含一个或多个列。虽然枚举每个可能的分发模式都超出了本文档的范围,但是几个例子说明了一些可能性。PARTITION BY HASH and RANGE 考虑上面的 简单哈希 示例,如果您经常查询一系列 sku 值,可以通过将哈希分区...

2018-09-06 19:53:47 5769

原创 Kudu分区 --- 基础部分

Kudu 目前没有在创建表之后拆分或合并 tablets 的机制。创建表时,必须为表提供分区模式。在设计表格时,请考虑使用主键,这样您就可以将表格分为以相同速率增长的 tablets 。 基本分区 1.Partition by range(按范围划分) 您可以为一个或多个主键列指定范围分区。 Kudu 中的范围分区允许根据所选分区键的特定值或值的范围拆分表。这样可以平衡并行...

2018-09-06 19:50:34 3622 1

原创 Kudu架构概述

下图显示了一个具有三个 master 和多个 tablet server 的 Kudu 集群,每个服务器都支持多个 tablet。它说明了如何使用 Raft 共识来允许 master 和 tablet server 的 leader 和 follow。此外,tablet server 可以成为某些 tablet 的 leader,也可以是其他 tablet 的 follower。leade...

2018-09-06 19:48:26 693

原创 Kudu概念与术语

Columnar Data Store(列式数据存储)Kudu 是一个 columnar data store(列式数据存储)。列式数据存储在强类型列中。由于几个原因,通过适当的设计,Kudu 对 analytical(分析)或 warehousing(数据仓库)工作会非常出色。Read Efficiency(高效读取)对于分析查询,允许读取单个列或该列的一部分同时忽略其他列,这意味着...

2018-09-06 19:47:32 679

原创 Kudu学习笔记 --- Kudu与Impala集成的特性梳理

CREATE/ALTER/DROP TABLEImpala 支持使用 Kudu 作为持久层来 creating(创建),altering(修改)和 dropping(删除)表。这些表遵循与 Impala 中其他表格相同的  Internal / external(内部 / 外部)方法,允许灵活的数据采集和查询。INSERT数据可以使用与那些使用 HDFS 或 HBase 持久性的任何其...

2018-09-06 15:56:00 1177

原创 数据仓库数据混淆

一、什么是数据混淆?在技术领域,数据混淆(也成为数据掩蔽)是将测试或开发环境中现有的敏感信息替换为看起来像真实生产信息的信息,但这些信息无法被任何人滥用。换句话说,测试或开发环境的用户不需要看到真实生产数据,只要这些数据与真实数据相似即可。因此,数据混淆计划被用于保护数据,它可帮助掩蔽非生产环境中包含的敏感信息,让企业可缓解数据泄露的风险。数据混淆也是数据仓库体系厘里面一个重要的组成部分。...

2018-09-06 15:51:56 3737

原创 Java实现获取过去一周,一个月,一年等日期

SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");Calendar c = Calendar.getInstance();1.过去七天c.setTime(new Date());c.add(Calendar.DATE, - 7);Date d = c.getTime();String day =...

2018-09-03 16:43:27 5430

斯坦福文本分类朴素贝叶斯实现课程讲义2021

斯坦福文本分类朴素贝叶斯算法实现课程讲义2021

2022-06-19

An Introduction to HTAP

An Introduction to HTAP

2022-04-26

datax.tar.gz

阿里开源ETL工具DataX

2021-08-22

ImpalaJDBC41.jar

ImpalaJDBC

2021-08-22

hive_jdbc_2.6.2.1002.zip

hive_jdbc_2.6.2.1002

2021-08-22

ClouderaHiveODBC.dmg

ClouderaHiveODBC

2021-08-22

JVM内存管理知识思维导图.png

JVM内存管理知识思维导图.png

2020-05-22

深入浅出Otter与Canal.pdf

深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf

2020-02-29

weworkapi_python-master.zip

企业微信加密解密函数代码示例weworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zip

2020-01-20

实时指标计算引擎-Spark-Part_1_杨鑫_2019-12-19.pptx

实时指标计算引擎-Spark-Part_1_杨鑫

2019-12-19

Griffin数据质量管理技术调研.pdf

Griffin数据质量管理技术调研.pdf

2019-12-09

Kylin多维分析.pdf

Kylin多维分析.pdf

2019-12-05

CDH5.17版本Hue接入HBase步骤.pdf

CDH5.17版本Hue接入HBase步骤.pdfC

2019-11-28

Apache Kylin竞品分析.pdf

Apache Kylin竞品分析.pdf

2019-11-18

_bz2.cpython-36m-x86_64-linux-gnu.so

_bz2.cpython-36m-x86_64-linux-gnu.so,

2019-11-07

presto-cli-0.223-executable.jar

presto-cli-0.223-executable.jar

2019-11-07

数据仓库规范设计.pdf

数据仓库规范设计.pdf

2019-11-04

基础算法-LP算法_线性规划问题.pptx

基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx

2019-10-17

基础算法-递归-杨鑫20191010.pptx

基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx

2019-10-17

基础算法 - 动态规划-2019-08-01.pptx

基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx

2019-10-17

KNN实现水果分类的数据集

KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集

2019-10-17

机器学习算法-神经网络LSTM

机器学习算法-神经网络.pptx

2019-09-21

ML-朴素贝叶斯-2019-07-01.pdf

ML-朴素贝叶斯-2019-07-01.pdf

2019-07-02

udfs-2.0.4-SNAPSHOT.jar

Presto的UDF函数,基本可以覆盖Hive的大多数情况。

2019-06-26

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

2019-03-06

Presto资源管理Rest API 文档

Presto资源管理Rest API 文档

2018-12-01

ACM学习路线导图

ACM学习路线导图

2018-11-14

Hadoop ResourceManager API

Hadoop ResourceManager API

2018-11-07

Kylin调研报告

Kylin (MOLAP - Multidimensional OnlineAnalytical Processing)调研报告

2018-10-29

ALL in python学习PPT

ALL in python学习PPT

2018-10-28

presto-cli

presto-cli,presto-cli,

2018-10-22

python pep8编码规范

python pep8编码规范

2018-10-17

Confluence-5.6.6-language-pack-zh_CN.jar

Confluence-5.6.6-language-pack-zh_CN.jar,防止confluence乱码的jar包

2018-09-30

AzkabanAPI接口文档汇总

AzkabanAPI接口文档汇总

2018-09-26

MachineLearning-相似度距离公式

MachineLearning-相似度距离公式

2018-09-21

Azkaban元数据库分析

Azkaban元数据库分析,

2018-09-19

Goods: Organizing Google’s Datasets

Goods: Organizing Google’s Datasets,Goods: Organizing Google’s Datasets

2018-09-06

Kudu- Storage for Fast Analytics on Fast Data

Kudu- Storage for Fast Analytics on Fast Data,Kudu- Storage for Fast Analytics on Fast Data

2017-12-21

mongodb-linux-x86_64-3.4.6

mongodb-linux-x86_64-3.4.6,很好用的客户端,请下载使用。

2017-10-17

mongo-hadoop-core-2.0.0

mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

2017-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除