自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 如何在数据流中轻松检测异常值-离群值

一种简单的方法,可通过Python实现在数据流中查找异常值 在上一篇文章中,我解释了流算法的概念,并给出了许多如何应用流算法的示例。 其中之一是在不保存数据流元素的情况下计算数据流的滚动平均值。 现在,我想扩展这个示例,并在异常值检测的背景下向您展示另一种流算法的用例。 当我们监视机器的功...

2020-05-26 12:23:19 121 0

转载 GC调优在Spark应用中的实践

GC调优在Spark应用中的实践(转载) Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,...

2020-05-23 15:35:09 22 0

转载 Hive0.13到Hive2.1跨版本升级全姿势

作者:饿了么数据架构组 Hive是业界大数据平台使用最广泛的SQL引擎,提供了一层SQL抽象接口和一套元数据规范, 将SQL查询翻译为分布式的计算作业,支持MapReduce/Spark/Tez等多种计算引擎。 同时Hive定义的元数据标准已经成为了一种事实标准,业界流行的大数据SQL引擎均对H...

2020-05-18 18:10:38 29 0

原创 Centos7.2下安装mysql命令行客户端

centos7.2下yum下找不到mysql客户端的rpm包了,需要从官网下载 rpm -iU MySQL-client-5.5.55-1.linux2.6.x86_64.rpm 提示如下错误 warning: MySQL-client-5.5.55-1.linux2.6.x86_64.rp...

2020-05-12 18:31:20 63 0

转载 datanode节点磁盘数据均衡

apache hadoop3.x后新增了节点磁盘数据均衡功能,cdh在5.8后已加入该功能。在没有该功能时,我们一般都会通过写盘策略来保证均衡,目前Hadoop支持两种volume选择策略:round-robin 和 available space,我们可以通过 dfs.datanode.fsda...

2020-05-07 17:59:54 43 0

转载 数仓字段血缘解析实现—hive版

​【本文大纲】 1、字段血缘分析的意义 2、实现方案选择 3、实现过程 4、总结 字段血缘分析的意义 数仓经常会碰到的两类问题: 1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数...

2020-05-04 13:46:35 123 0

转载 MySQL 对于千万级的大表要怎么优化?

作者:互联网编程 链接:https://www.zhihu.com/question/19719997/answer/549041957 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 修改回答,老有人说我是发广告,好吧,知乎不适合我这种玩 第一我不是阿里,...

2020-05-02 16:39:16 285 0

转载 大数据技术丛书·Flink原理、实战与性能优化-在线读书

http://yuedu.163.com/book_reader/a6a7fdfedb6246148e4eb19b617557d2_4

2020-05-01 11:06:48 115 0

转载 Hbase bulkLoad 批量入库遇到的问题及解决方法

问题及解决方法 1.2.1、首先就是reduce相关的问题: 在实际的应用中你就会发现,对于稍大一点的数据量,map过程的执行效率还是比较让人满意的,但是到了reduce阶段就会出现比较严重的卡顿,我的困惑就是?我的代码里明明没有reduce过程,为什么还会有reduce过程来影响我入库的效率...

2020-04-30 13:40:37 85 0

转载 2020 年 TensorFlow 开发者峰会总结 

感谢各位来参加我们 2020 年的 TensorFlow 开发者峰会的线上直播!虽然我们无法在现场与您相见,但我们希望今年的活动比以往更易参与。 我们在本次大会中介绍了产品的很多更新与发布,让我们在本文中与大家回顾一下。当然,想要深入了解,请记得回看主题演讲的录播,以及我们的其他主题(见文末),...

2020-04-25 09:15:26 61 0

转载 0591-5.16.1-如何通过CM的API 获取集群告警信息

文档说明 当集群中的服务有故障时,CM的界面上可以直接显示告警,你也可以通过CM的API去获取这些信息,本篇文章主要介绍CM的界面告警事件以及如何使用CM提供的API获取集群的告警信息 内容概述 1.文档说明 2.告警介绍 3.事件告警REST API 测试环境 1.CM和CDH版本为C...

2020-04-22 17:25:16 63 0

转载 HDFS异构存储实战

最近在做HBase跨机房的数据迁移,正好用到HDFS的异构存储,我们使用的场景是将WAL日志保存到SSD中,其他的数据则存储在普通的SATA盘中。既充分利用了本地SSD盘的空间,又达到了提升系统性能的目的。本文是对HDFS异构存储学习和使用的总结,以及对使用HDFS异构存储过程中遇到问题的总结,希...

2020-04-19 21:59:11 130 0

转载 根据数据冷热程度分层存储,让HDFS更高效

摘要: 随着大数据技术相关技术的发展和普及,越来越多的公司开始使用基于开源Hadoop的平台系统,同时,越来越多的业务和应用也在从传统的技术架构迁移到大数据平台上。在典型的Hadoop大数据平台中,人们使用HDFS作为存储服服务Hadoop 一、背景 随着大数据技术相关技术的发展和普及,越来越多...

2020-04-19 19:14:07 195 0

转载 2020 年 TensorFlow 开发者峰会总结 

感谢各位来参加我们 2020 年的 TensorFlow 开发者峰会的线上直播!虽然我们无法在现场与您相见,但我们希望今年的活动比以往更易参与。 我们在本次大会中介绍了产品的很多更新与发布,让我们在本文中与大家回顾一下。当然,想要深入了解,请记得回看主题演讲的录播,以及我们的其他主题(见文末),...

2020-04-19 15:46:50 114 0

转载 TensorFlow 2.0 正式版现已发布

今年初,我们在 TensorFlow 开发者大会 (TensorFlow Dev Summit) 上发布了 TensorFlow 2.0 的 Alpha 版本。经过近 7 个月的努力,今天我们高兴的宣布,TensorFlow 2.0 正式版现已推出! 注:TensorFlow 开发者大会 ...

2020-04-19 10:57:13 76 0

转载 架构与模型设计 -数仓分层

在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。 数据仓库的分层和各层级用途如下图所示...

2020-04-18 22:27:00 49 0

原创 大数据之Hadoop3.0 新特性

总览 官网 最低要求的Java版本从Java 7增加到Java 8 支持HDFS中的擦除编码 YARN时间轴服务v.2 Shell脚本重写 支持随机container和分布式计划 MapReduce任务级本机优化 支持两个以上的NameNode 多个服务的默认端口已更改 支持M...

2020-04-18 16:02:00 61 0

转载 keras-ocr是CRAFT文本检测器和Keras CRNN识别模型的一个打包与灵活版本

详细内容问题7同类相比218 keras-ocr This is a slightly polished and packaged version of theKeras CRNN implementationand the publishedCRAFT text detection mode...

2020-04-09 08:31:01 171 0

转载 LSD直线检测和霍夫线变换的学习建议

原创置顶 大头青年 最后发布于2018-05-26 20:04:55 阅读数 3199 收藏 展开 最近笔者学习霍夫线变换和LSD直线检测算法,有一些学习建议,希望可以给予大家一些帮助。 学习霍夫变换的感想 每个人理解的霍夫变换或许略有差异,但是最主要的是笛卡尔坐标系跟极坐标系的相互转换。 ...

2020-04-06 15:12:51 54 0

转载 RNN入门(三)利用LSTM生成旅游点评

介绍   前几天,某个公众号发文质疑马蜂窝网站,认为它搬运其它网站的旅游点评,对此,马蜂窝网站迅速地做出了回应。相信大多数关注时事的群众已经了解了整个事情的经过,在这里,我们且不论这件事的是是非非,也不关心它是否是通过爬虫等其他技术手段实现的。本文将会展示一种自动生成旅游点评的技术手段。我们用到...

2020-04-06 09:31:30 140 0

转载 如何识别图片中的表格数据(opencv 和pyteressact)

  在很多时候,我们的数据来源形式是多种多样的,有时候数据(或表格)也会呈现在图片中。那么,我们如何来获取图片中的有用数据呢?当一张图片中含有表格数据的时候,我们可以用OpenCV识别表格中的直线,然后再用OCR技术识别其中的文字。   本文仅作为如何识别图片中的表格的一个例子,希望能给读者一些启...

2020-04-06 09:20:20 119 0

转载 tensorflow LSTM+CTC实现端到端的不定长数字串识别

12017.08.22 12:01:17字数 1,677阅读 43,984 上一篇文章tensorflow 实现端到端的OCR:二代身份证号识别实现了定长18位数字串的识别,并最终达到了98%的准确率。 但是实际应用场景中,常常需要面对无法确定字串长度的情况,这时候除了需要对识别字符模型参数进行...

2020-04-04 09:12:57 97 0

原创 hive 批量添加,删除分区

一.批量添加分区: use bigdata; alter table siebel_member add if not exists partition(dt='20180401') location '20180401' partition(dt...

2020-03-26 08:50:13 54 0

转载 keras-yolov3目标检测详解——适合新手

展开 现在网上能找到的博客我现在看起来很明白,虽然讲的很详细,但是对于几天前的我真的看不明白,因为新手会遇到各种各样毫无征兆的问题,所以我决定写一篇面向新手的如何去使用 yolo 和如何去做自己的数据集来训练属于自己的模型。因为我也是新手,所以不说原理,只谈操作方法。 因为东西很杂,我会把小东西分...

2020-03-24 12:50:27 176 0

原创 Python+OpenCV图像处理之开闭操作

开操作:图像形态学的重要操纵之一,基于膨胀与腐蚀操作组合形成的;主要是应用在二值图像分析中,灰度图像亦可 开操作 = 腐蚀+膨胀,输入图像 + 结构元素 作用:用来消除小物体、平滑较大物体的边界的同时并不明显改变其面积,提取水平或竖直的线 闭操作:图像形态学的重要操纵之一,基于膨胀与腐蚀操作...

2020-03-23 21:53:42 100 0

原创 tensorflow hub 镜像网址(国内访问地址)

https://hub.tensorflow.google.cn/

2020-03-22 15:05:13 234 0

转载 hbase优化之旅(一)探索regionserver参数优化

优化的目的 我们线上hbase集群使用了group分组功能,但没有针对不同业务分组的特点做特殊优化,hbase服务能力没有彻底激发出来。 本文记录了对某个业务分组参数优化的探索,借此机会深入了解不同配置对regionserver监控指标和机器负载的影响。 优化后,单台regionserver查...

2020-03-18 15:33:41 42 0

原创 hbase集群region数量和大小的影响

1、Region数量的影响 通常较少的region数量可使群集运行的更加平稳,官方指出每个RegionServer大约100个regions的时候效果最好,理由如下: 1)Hbase的一个特性MSLAB,它有助于防止堆内存的碎片化,减轻垃圾回收Full GC的问题,默认是开启的。但是每个Mem...

2020-03-17 11:14:05 171 0

原创 HBase Flush 解析

在对hbase操作中,数据读取/写入都是发生在某个HRegion下某个Store里的files。那么究竟在写入hbase时,一个region下到底发生了什么呢? 常见的有以下三种情况: 1)、memstore flush to disk 2)、columnfamily’s files comp...

2020-03-17 09:28:43 83 0

原创 一行命令搞定图像质量评价 | 附代码和操作步骤

在交流群里,经常有人问到图像质量评价的问题。比如对监控摄像头拍摄的多幅图像,挑选一幅图像显示给用户,或者选择一幅图丢给识别模型,又或者在互联网应用里,对于用户上传的多幅图像,选择一幅作为封面。一般要求图像清晰、质量较好,有没有简单的方法实现图像质量评价呢? 今天跟大家推荐一个工具,来自德国商品比...

2020-03-14 09:47:18 40 1

原创 没钱买华为P30?这个图像超分辨率项目帮你「拍」出高清照片

华为刚刚发布的 P30「望远镜」手机能在几十米外拍到埃菲尔上的人名,确实令人佩服,但其售价也是令人望而生畏。那么,不买华为手机、高级单反就拍不到充满细节的高清照片了吗? 相机不够算法凑,拥有超级拍照能力的手机也离不开算法的加持。本文介绍的图像超分辨率项目可以帮你补齐相机镜头的短板。 华为...

2020-03-14 09:01:56 79 0

原创 使用Python「秒开」100GB+数据

本文转载自公众号量化投资与机器学习 如果你50GB甚至500GB的数据集,打开他们都很困难了,更别说分析了。 在处理这样的数据集时,我们通常采用3种方法。 第一种对数据进抽样:这里的缺点是显而易见的,样本数据能否代表整个数据。 第二种使用分布式计算:虽然在某些情况下这是一种有效的方法,但是...

2020-03-13 13:38:47 57 0

原创 hdfs 中 CentOS,清理缓存(drop_caches)规划

读写文件时,Linux内核为了提高读写效率与速度,会将文件在内存中进行缓存,这就是Cache Memory(缓存内存)。 即使程序运行结束后,Cache Memory也不会自动释放。这就会导致程序频繁读写文件后,可用物理内存会很少。 其实这缓存内存(Cache Memory)在你需要使用内存的时候...

2020-03-12 11:18:03 99 0

转载 java中堆外内存详解

堆外内存和堆内内存 堆外内存又称为直接内存(Direct Memory)并不是虚拟机运行时数据区的一部分,也不是Java虚拟机规范中定义的内存区域.一直以来是Javaer们难以关注的一片领域,今天我们就一起探索一下这片区域究竟隐藏着什么东东???? JVM可以使用的内存分外2种:堆内存和堆外内...

2020-03-11 16:03:13 37 0

转载 HBase2.0新特性详解

升级背景 个推作为专业的数据智能服务商,在业务开展过程中存在海量的数据存储与查询的需求,为此个推选用了高可靠、高性能、面向列、可伸缩的分布式数据存储系统——HBase。 然而,运行HBase老集群(使用HBase1.0版本)多年后,遇到了两大问题:各节点基础环境不一致;该集群的服务器运行多年已...

2020-03-11 14:30:34 50 0

转载 [计算机视觉] A4纸边缘检测

https://blog.csdn.net/qq_33000225/article/details/65934830?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant....

2020-03-10 21:52:22 42 0

原创 Tensorflow 模型文件的使用以及格式转换-OpenCV DNN 可调用格式(一)

主要前几天看到集成opencv,发现前面的方式比较麻烦,现在就找资料研究,发现这个方式非常不错。 展开 Tensorflow模型的graph结构可以保存为.pb文件或者.pbtxt文件,或者.meta文件,其中只有.pbtxt文件是可读的。 网上大牛们训练好的网络,将模型保存为一个统一的.p...

2020-03-08 22:06:03 125 0

转载 基于OPENCV和tesseract的中文扫描票据OCR识别。

https://github.com/JiangKui007/jx_ocr

2020-03-08 14:57:12 388 0

原创 Opencv距离变换distanceTransform应用

展开 1,Opencv距离变换distanceTransform应用 Opencv距离变换distanceTransform应用——细化字符轮廓&&查找物体质心 2,基于distanceTransform-距离变换的区域中心提取 基于距离变换的手掌中心提取 +ope...

2020-03-08 14:30:26 44 0

转载 2020年最新款 GPU 选择建议-助你选择最合适你的 GPU

最优(SOTA)的深度学习模型往往需要占用巨大内存。许多GPU通常没有足够的VRAM来存储并训练这些模型。 在这篇文章中,将对现有不同型号的GPU进行测试,给出在不超过它们显存的条件下,可以支持训练SOTA的语言/图像模型大小进行测试;还将对每个GPU的训练性能进行基准测试。给需要采购GPU进行...

2020-03-06 21:51:51 80 0

提示
确定要删除当前文章?
取消 删除