自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 如何在数据流中轻松检测异常值-离群值

一种简单的方法,可通过Python实现在数据流中查找异常值 在上一篇文章中,我解释了流算法的概念,并给出了许多如何应用流算法的示例。 其中之一是在不保存数据流元素的情况下计算数据流的滚动平均值。 现在,我想扩展这个示例,并在异常值检测的背景下向您展示另一种流算法的用例。 当我们监视机器的功...

2020-05-26 12:23:19 452 0

转载 GC调优在Spark应用中的实践

GC调优在Spark应用中的实践(转载) Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,...

2020-05-23 15:35:09 57 0

转载 Hive0.13到Hive2.1跨版本升级全姿势

作者:饿了么数据架构组 Hive是业界大数据平台使用最广泛的SQL引擎,提供了一层SQL抽象接口和一套元数据规范, 将SQL查询翻译为分布式的计算作业,支持MapReduce/Spark/Tez等多种计算引擎。 同时Hive定义的元数据标准已经成为了一种事实标准,业界流行的大数据SQL引擎均对H...

2020-05-18 18:10:38 74 0

原创 Centos7.2下安装mysql命令行客户端

centos7.2下yum下找不到mysql客户端的rpm包了,需要从官网下载 rpm -iU MySQL-client-5.5.55-1.linux2.6.x86_64.rpm 提示如下错误 warning: MySQL-client-5.5.55-1.linux2.6.x86_64.rp...

2020-05-12 18:31:20 135 0

转载 datanode节点磁盘数据均衡

apache hadoop3.x后新增了节点磁盘数据均衡功能,cdh在5.8后已加入该功能。在没有该功能时,我们一般都会通过写盘策略来保证均衡,目前Hadoop支持两种volume选择策略:round-robin 和 available space,我们可以通过 dfs.datanode.fsda...

2020-05-07 17:59:54 76 0

转载 数仓字段血缘解析实现—hive版

​【本文大纲】 1、字段血缘分析的意义 2、实现方案选择 3、实现过程 4、总结 字段血缘分析的意义 数仓经常会碰到的两类问题: 1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数...

2020-05-04 13:46:35 460 0

转载 MySQL 对于千万级的大表要怎么优化?

作者:互联网编程 链接:https://www.zhihu.com/question/19719997/answer/549041957 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 修改回答,老有人说我是发广告,好吧,知乎不适合我这种玩 第一我不是阿里,...

2020-05-02 16:39:16 310 0

转载 大数据技术丛书·Flink原理、实战与性能优化-在线读书

http://yuedu.163.com/book_reader/a6a7fdfedb6246148e4eb19b617557d2_4

2020-05-01 11:06:48 207 0

提示
确定要删除当前文章?
取消 删除