自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (4)
  • 收藏
  • 关注

转载 如何在数据流中轻松检测异常值-离群值

一种简单的方法,可通过Python实现在数据流中查找异常值在上一篇文章中,我解释了流算法的概念,并给出了许多如何应用流算法的示例。 其中之一是在不保存数据流元素的情况下计算数据流的滚动平均值。 现在,我想扩展这个示例,并在异常值检测的背景下向您展示另一种流算法的用例。当我们监视机器的功耗以检测任何异常行为时,可能会出现类似的问题。 如果我们发现异常值有所增加(异常观察),则可能表明这台机器的默认值,可能值得检查。定义和示例离群值可以通过多种方式定义。 在本文中,我们将使用以下定义:...

2020-05-26 12:23:19 1649

转载 GC调优在Spark应用中的实践

GC调优在Spark应用中的实践(转载)Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制(GC)。并且同时,它也支持兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要。本文主要讲述如

2020-05-23 15:35:09 186

转载 Hive0.13到Hive2.1跨版本升级全姿势

作者:饿了么数据架构组Hive是业界大数据平台使用最广泛的SQL引擎,提供了一层SQL抽象接口和一套元数据规范, 将SQL查询翻译为分布式的计算作业,支持MapReduce/Spark/Tez等多种计算引擎。 同时Hive定义的元数据标准已经成为了一种事实标准,业界流行的大数据SQL引擎均对Hive元数据进行了兼容和支持。前一段时间我们饿了么数据架构团队对Hive进行了一次从0.13版本到2.1版本的跨版本升级,升级期间遇到了一些问题, 但是基本做到了可灰度、可控制和升级期间稳定性保证,同时服...

2020-05-18 18:10:38 444

原创 Centos7.2下安装mysql命令行客户端

centos7.2下yum下找不到mysql客户端的rpm包了,需要从官网下载rpm -iU MySQL-client-5.5.55-1.linux2.6.x86_64.rpm提示如下错误warning: MySQL-client-5.5.55-1.linux2.6.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEY采用如下命令正常rpm -ivh MySQL-client-5.5.55-1.linux2.6.

2020-05-12 18:31:20 705 1

转载 datanode节点磁盘数据均衡

apache hadoop3.x后新增了节点磁盘数据均衡功能,cdh在5.8后已加入该功能。在没有该功能时,我们一般都会通过写盘策略来保证均衡,目前Hadoop支持两种volume选择策略:round-robin 和 available space,我们可以通过 dfs.datanode.fsdataset.volume.choosing.policy 参数来设置。 在cdh中启用磁盘均衡功...

2020-05-07 17:59:54 544

转载 数仓字段血缘解析实现—hive版

​【本文大纲】1、字段血缘分析的意义2、实现方案选择3、实现过程4、总结字段血缘分析的意义数仓经常会碰到的两类问题:1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数据回溯问题2、基础数据表因某种原因需要修改字段,需要评估其对数仓的影响,费时费力,然后...

2020-05-04 13:46:35 5497 4

转载 MySQL 对于千万级的大表要怎么优化?

作者:互联网编程链接:https://www.zhihu.com/question/19719997/answer/549041957来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。修改回答,老有人说我是发广告,好吧,知乎不适合我这种玩第一我不是阿里,腾讯员工,而且我也没必要帮他们发广告 第二,阿里云国内第一,世界第三,不需要我这种小白发广告,本身...

2020-05-02 16:39:16 2230

转载 大数据技术丛书·Flink原理、实战与性能优化-在线读书

http://yuedu.163.com/book_reader/a6a7fdfedb6246148e4eb19b617557d2_4

2020-05-01 11:06:48 1326

2007年下半年系统分析师下午试卷Ⅱ.doc

2007年下半年系统分析师下午试卷Ⅱ.doc

2007-11-21

2007年下半年系统分析师下午试卷Ⅰ.doc

2007年下半年系统分析师下午试卷Ⅰ.doc

2007-11-21

2007年下半年系统分析师上午试卷.doc

2007年下半年系统分析师上午试卷.doc

2007-11-21

2007年下半年系统分析师考试试题分析.doc

2007年下半年系统分析师考试试题分析.doc

2007-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除