- 博客(96)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 可视化分析工具Apache Zeppelin:数据分析从未这样简单
基础篇基本介绍:可视化交互式数据分析工具Apache ZeppelinLinux平台安装部署Windows平台安装部署快速入门主要界面和基本操作组件配置和使用 Zeppelin组件配置和使用:使用JDBC连接Mysql Zeppelin组件配置和使用:使用JDBC连接Hive Zeppelin组件配置和使用:使用JDBC连接Phoenix Zeppelin组件配置和使用...
2019-05-05 08:53:36 2829 1
原创 Jersey系列:实践全干货
介绍和快速入门轻量级微服务框架Jersey微服务框架Jersey:快速入门常用注解Jersey框架常用注解1:HTTP请求方法注解 Jersey框架常用注解2:@Path和@PathParam注解Jersey框架常用注解3:媒体类型注解@Consumes和@ProducesJersey框架常用注解4:最强大的注解@ContextJersey框架常用注解5:参数获取注解高效编码和代...
2019-04-21 18:10:04 1088 1
原创 可视化交互式数据分析工具Apache Zeppelin
1. 什么是Apache Zeppelin在正式进入Apache Zeppelin的正题之前,我们必须先了解两个概念。REPLREPL全称是Read Evaluate Print Loop,交互式解释器环境,通过交互式界面接收用户输入,交互式解释器读取输入内容并对它求值,返回结果,并重复此过程。Jupyter NotebookJupyter Notebook(早期叫IPython not...
2019-04-14 15:16:03 3061
原创 MapReduce系列:原理、编程技巧和应用案例
MapReduce原理分布式计算框架MapReduce架构MapReduce编程模型详解— —以经典Word Count为例编程技巧Windows环境下MapReduce程序调试最有用技巧应用案例MapReduce应用案例1:数据去重MapReduce应用案例2:简单数据排序MapReduce应用案例3:简单数据倒排MapReduce应用案例4:二次排序(组合键机制实现)Map...
2019-04-06 10:57:39 433
原创 Jersey框架:深入研究的终极大招-Jersey用户手册
任何框架,要深入研究必须要从官方提供的用户手册(User Guide)入手,网上关于Jersey的用户手册都是网页链接方式。本文发扬雷锋精神,将网页链接整理成pdf,供Jersey框架开发者参考。Jersey 2.17 User Guide下载链接:链接:https://pan.baidu.com/s/19zuOwbVJWltKwr7jUKaf1Q提取码:n6eq...
2020-01-06 23:58:06 960
原创 Jersey框架:利用ModelProcessor接口获取所有注册的资源
1.业务场景1.1 业务需求数据服务是数据治理的重要主题之一,目前流行的接口配置中心方案可以通过Jersey的Programming API实现,微服务启动时根据用户通过UI注册的资源路径进行服务动态注册,无需通过硬编码即可实现服务注册。1.2 技术需求Jersey的路径和请求方法唯一组成一个HTTP请求资源,Jersey微服务启动时,对所有注册的资源进行统计,方便后续用户在运行时注册资源...
2020-01-06 23:21:43 1039
原创 Jersey框架:统一响应404请求
1.业务场景在Jersey框架中,如果用户访问不存在的资源路径,默认会调用Jersey自己的异常处理机制,返回类似下图的响应,不利于前端处理404请求。本文介绍一种统一处理404NotFound请求响应的方式,利用Jersey的异常映射机制,将NotFoundException统一处理,请求响应如下。{"status":404,"message":"HTTP 404 Not Found",...
2020-01-05 14:55:05 1679
原创 Jersey框架:用@PreMatching注解拦截所有请求
1.业务场景为了对用户请求进行统一的接入管理(权限认证、日志记录、请求转发等),在用户发起任何HTTP请求时,在Jersey框架中实现过统一的过滤器拦截所有用户请求。主要需求:拦截注册到Jersey容器的请求资源,做日志记录拦截Jersey容器中未注册(请求不存在,报NotFound错误)的请求资源,做统一转发2.技术原理Jersey的过滤器包括两种,一种是请求后置过滤器(post...
2020-01-05 11:33:50 2123 1
原创 Jersey框架常用注解1:HTTP请求方法注解
HTTP请求的方法HTTP/1.1协议中共定义了八种方法(有时也叫“动作”),来表明Request-URL指定的资源不同的操作方式HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。HTTP请求方法注解Jersey框架提供的@GET、@POST、@P...
2020-01-05 10:02:13 1048
原创 Jersey框架:封装基于Jetty的通用服务器
1.需求场景依赖于Jetty容器封装一个Jersey微服务的启动类,在微服务入口中通过简单的调用即可实现微服务启动。主要需求如下:可以指定服务启动端口可以指定服务的应用域路径可以指定要注册到Jersey容器的资源包可以指定要注册到Jersey容器的资源类2.设计思路在通用封装类中维护一个Jetty的Server实例,代表真正的服务器默认注册res、filter和excepti...
2020-01-04 23:04:57 452
原创 Elasticsearch检索性能分析:Profile API
Elasticsearch从2.2版本开始提供 Profile API 供用户检查检索、聚合、过滤执行时间和其他细节信息,帮助用户分析每次检索各个环节所用的时间。官方文档:Profiling Querieshttps://www.elastic.co/guide/en/elasticsearch/reference/current/search-profile-queries.html使用...
2019-05-22 12:28:48 3849
原创 Intellij IDEA调试Elasticsearch 5.4.0源码
Intellij IDEA调试Elasticsearch 5.4.0源码目录1 文档需求2 硬件环境3 前置软件安装与配置3.1 JDK3.2 Gradle3.2.1 Gradle介绍 3.2.2 Gradle安装 3.3 Intellij IDEA 4 Elasticsearch源码和安装包下载 4.1.1 源码下载 4.1.2 安装包下载 5 项目初始化 5.1 ...
2019-05-22 10:42:41 601
原创 Elasticsearch底层读写原理分析
Lucene读写原理要真正掌握Elasticsearch的读写原理,首先要了解其底层Lucene的读写原理,推荐以下系列文章:Lucene学习总结之一:全文检索的基本原理Lucene学习总结之二:Lucene的总体架构Lucene学习总结之三:Lucene的索引文件格式(1)Lucene学习总结之三:Lucene的索引文件格式(2)Lucene学习总结之三:Lucene的索引文件格式(...
2019-05-22 10:31:17 571
转载 Elasticsearch 主要监控指标
Elasticsearch具有通用性、可扩展性和实用性的特点,集群的基础架构必须满足如上特性。合理的集群架构能支撑其数据存储及并发响应需求。相反,不合理的集群基础架构和错误配置可能导致集群性能下降、集群无法响应甚至集群崩溃。监控系统的节点运行情况、集群健康、JVM性能状况、索引性能、检索性能等,实时发现问题,防患于未然。监控工具实际业务场景中,如果公司条件允许,X-pack是首选,具备数据安全...
2019-05-22 09:34:54 4132
转载 Elasticsearch应用案例4:滴滴Elasticsearch多集群架构实践
原文地址:https://mp.weixin.qq.com/s/K44-L0rclaIM40hma55pPQ1. 使用情况滴滴 2016 年初开始构建 Elasticsearch 平台,如今已经发展到超过 3500+ Elasticsearch 实例,超过 5PB 的数据存储,峰值写入 tps 超过了 2000w/s 的超大规模。Elasticsearch 在滴滴有着非常丰富的使用场景,例如...
2019-05-21 21:23:08 377
转载 Elasticsearch性能优化:索引、查询和内存优化
本文从索引、查询和内存三个方面介绍一些基础的Elasticsearch性能优化方法。1.索引优化1.1 批量提交当有大量数据提交的时候,建议采用批量提交。比如在做 ELK 过程中 ,Logstash indexer 提交数据到 Elasticsearch 中 ,batch size 就可以作为一个优化功能点。但是优化 size 大小需要根据文档大小和服务器性能而定。像 Logstash ...
2019-05-21 20:38:52 1306
转载 Elasticsearch聚合性能优化:深度优先和广度优先
原文链接:https://www.elastic.co/guide/cn/elasticsearch/guide/current/_preventing_combinatorial_explosions.html优化聚合查询“elasticsearch 里面桶的叫法和 SQL 里面分组的概念是类似的,一个桶就类似 SQL 里面的一个 group,多级嵌套的 aggregation, 类似 SQ...
2019-05-21 17:06:39 2265 1
原创 Elasticsearch权威指南
在关于Elasticsearch的众多书籍、博客等材料当中,地位最高的自然是*Elasticsearch权威指南*,若想真正玩转ES,阅读指南是必经之路。中文版信息《Elasticsearch: 权威指南》Clinton GormleyZachary Tong版权 © 2014, 2015, 2016 Elasticsearch本作品采用 署名-非商业性使用-禁止演绎 3.0 未本...
2019-05-21 16:43:42 446
转载 Elasticsearch性能调优:千万不要做愚蠢的事
在 Elasticsearch 中有一些热点,人们可能不可避免的会碰到。 我们理解的,所有的调整就是为了优化,但是这些调整,你真的不需要理会它。因为它们经常会被乱用,从而造成系统的不稳定或者糟糕的性能,甚至两者都有可能。原文链接:不要触碰这些配置垃圾回收器先说结论,不要更改默认的垃圾回收器!Elasticsearch 默认的垃圾回收器( GC )是 CMS。 这个垃圾回收器可以和应用...
2019-05-21 15:48:58 4745
翻译 Elasticsearch性能优化:高效管理基于时间的索引,实现冷热数据分离
转载自http://stormluke.me/es-managing-time-based-indices-efficiently/原文链接And the big one said “Rollover” — Managing Elasticsearch time-based indices efficiently用 Elasticsearch 来索引诸如日志事件等基于时间的数据的人可能已经...
2019-05-21 10:42:41 1357
原创 Elasticsearch:为了搜索,你懂的(For Search, You Know)
Elasticsearch模糊的历史多年前,一个叫做Shay Banon的刚结婚不久的失业开发者,由于妻子要去伦敦学习厨师,他便跟着也去了。在他找工作的过程中,为了给妻子构建一个食谱的搜索引擎,他开始使用Lucene进行尝试。直接基于Lucene工作会比较困难,所以Shay开始抽象Lucene代码以便Java程序员可以在应用中添加搜索功能。他发布了他的第一个开源项目,叫做“Compass”。...
2019-05-20 16:49:09 1732
转载 Elasticsearch应用案例1:百度
百度从2013年10月开始使用Elasticsearch,目前百度内部20多个业务线涉及Elasticsearch技术栈,包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等。以下内容来自:百度Elasticsearch实践-高攀主要内容包括:背景介绍、典型应用场景、遇到的问题及经验分享、对ES的优化与改进、后期计划等。...
2019-05-20 15:41:28 1009 1
转载 Elasticsearch应用案例3:新浪是如何分析处理32亿条实时日志的?
原文地址:http://dockone.io/article/505从2015年起,实时日志分析作为服务提供给公司的其他部门。服务介绍随着实时分析技术的发展及成本的降低,用户已经不仅仅满足于离线分析。目前我们服务的用户包括微博、微盘、云存储、弹性计算平台等十多个部门的多个产品的日志搜索分析业务,每天处理约32亿条(2TB)日志。技术架构这是一个再常见不过的架构了:(1)Kafka:...
2019-05-20 15:26:06 717
转载 Elasticsearch应用案例2:携程网的垂直搜索和海量日志运维实践
ElasticSearch目前在互联网公司主要用于两种应用场景,其一是用于构建业务的搜索功能模块且多是垂直领域的搜索,数据量级一般在千万至数十亿这个级别;其二用于大规模数据的实时OLAP,经典的如ELKStack,数据规模可能达到千亿或更多。 这两种场景的数据索引和应用访问模式上差异较大,在硬件选型和集群优化方面侧重点也会有所不同。一般来说后一种场景属于大数据范畴,数据量级和集群规模更大,在管理方...
2019-05-20 15:06:00 599
原创 Java图像处理工具类:实现图像缩放
使用Java实现一个简单的图像处理工具类,可完成图像安装一定比例缩放,代码如下:import javax.imageio.ImageIO;import java.awt.*;import java.awt.image.BufferedImage;import java.io.File;import java.io.FileOutputStream;import java.io.IOEx...
2019-05-19 10:32:28 630
原创 图像特征提取算法:边缘直方图描述符Edge Histogram Descriptor
本文以Won, C. S(2002)等关于MPEG‐7标准 Edge Histogram Descriptor的论文为基础,进行EHD算法的总结。原文引用如下Won, C. S., Park, D. K., & Park, S. J. (2002). Efficient Use of MPEG‐7 Edge Histogram Descriptor. ETRI journal, 24...
2019-05-16 14:31:50 2944
原创 Jetty最大线程数原理及优化
Jetty默认的线程池初始化大小为8,最大线程数为200,在创建Server时如果没有指定线程池数量,框架会初始化一个QueuedThreadPool。部分代码如下: this._threadPool = (ThreadPool)(pool != null?pool:new QueuedThreadPool()); public QueuedThreadPool() { ...
2019-05-15 15:22:45 8223
原创 计算机视觉入门必会:常见的图像特征提取算法
以下图像特征算法是计算机视觉入门必须了解的图像特征提取算法:MPEG-7标准中的视觉描述符颜色和边缘的方向性描述符CEDD模糊颜色和纹理直方图FCTH颜色布局描述符Color Layout Descriptor方向梯度直方图HOG局部二值模式LBP尺度不变特征变换SIFT图像特征提取算法:加速鲁棒特征SURF...
2019-05-14 19:00:29 2242
转载 图像特征提取算法:方向梯度直方图HOG
1.基本介绍HOG,全称是方向梯度直方图(Histogram Of Gradient),是目前计算机视觉、模式识别领域很常用的一种描述图像局部纹理的特征。这个特征名字起的也很直白,就是说先计算图片某一区域中不同方向上梯度的值,然后进行累积,得到可以代表这块区域的直方图,使用直方图进行检索或分类。因为HOG是一个局部特征,因此如果对一大幅图片直接提取特征,是得不到好的效果的。原理很简单。从信息论...
2019-05-14 18:43:17 5368
原创 图像特征提取算法:颜色布局描述符Color Layout Descriptor
1. 基本介绍CLD,全称是颜色布局描述子(Color Layout Descriptor)是mpeg-7多媒体内容标准描述中一种高效的局部颜色特征描述,具有计算成本低、匹配计算速度快等优点,属于简单易懂的图像特征提取算法。以下内容翻译自Wiki百科关于Color Layout的介绍。2. Color Layout Descriptor(CLD)提取过程Color Descriptor的...
2019-05-14 12:41:21 3576 1
转载 图像特征提取算法:加速鲁棒特征SURF
1.原理:Sift算法的优点是特征稳定,对旋转、尺度变换、亮度保持不变性,对视角变换、噪声也有一定程度的稳定性;缺点是实时性不高,并且对于边缘光滑目标的特征点提取能力较弱。Surf(Speeded Up Robust Features)改进了特征的提取和描述方式,用一种更为高效的方式完成特征的提取和描述。2.Surf实现流程2.1 构建Hessian(黑塞矩阵),生成所有的兴趣点,用于特征...
2019-05-13 20:09:28 3644
转载 图像特征提取算法:局部二值模式LBP
本人深切痛恶有些博客作者原封不动抄袭学术论文、给论文中的图片打上自己的水印、宣称文章是自己原创等种种行为,呼吁大家总结博文注明来源。LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子;它具有旋转不变性和灰度不变性等显著的优点。最早由T. Ojala, M.Pietikäinen,和D.Harwood在1994年提出,用于图像的局部纹理特征提取...
2019-05-13 14:33:49 1238
转载 图像特征提取算法:尺度不变特征变换SIFT
尺度不变换特征变换(Scale invariant feature Transform,SIFT)(Lowe,1999,2004)[1],[2]的目标是解决低层次特征提取及其图像匹配应用中的许多实际问题。1.基本介绍关于SIFT算法,2004年David Lowe发表在Int. Journal of Computer Vision的经典论文[2]中,对尺度空间(scale space)是这样定...
2019-05-12 20:08:06 3774
转载 MPEG-7 视觉描述符
MPEG-7标准被称为“多媒体内容描述接口”,MPEG-7规定一个用于描述各种不同类型多媒体信息的描述符的标准集合,其目标是支持多种音频和视觉的描述,支持数据管理的灵活性、数据资源的全球化和互操作性等。它标准化了描述子、描述结构、描述定义语言等。MPEG-7的目标是支持多种音频和视觉的描述,包括自由文本、N维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述将包括颜色...
2019-05-12 19:34:27 817
转载 图像特征提取算法:模糊颜色和纹理直方图FCTH
FCTH,全称为模糊颜色和纹理直方图(Fuzzy Color and Texture Histogram),本文总结华南理工大学林良思2010年硕士论文中关于FCTH相关的内容。FCTH 特征可从 3 个模糊单元的组合求得结果。先将图像划分成若干分块,在第一个模糊单元中以 HSV 颜色空间的三个信道为输入,经模糊系统最终产生 10-bin 的直方图。在第二个模糊单元修改每个颜色的色调后,经模糊系...
2019-05-12 19:22:06 2165
转载 图像特征提取算法:颜色和边缘的方向性描述符CEDD
CEDD,全称是颜色和边缘的方向性描述符(Color and Edge Directivity Descriptor),具有抽取特征速度较快,特征描述符占用空间较小的优势。本文内容转自2012北邮李东阳的硕士论文《Android手机上图像分类技术的研究》,与CEDD特征相关的主要内容目录如下:1.颜色信息CEDD特征结合了颜色和纹理两方面信息,本小结将给出颜色信息提取的过程,重点分析RGB...
2019-05-12 19:01:34 2460
转载 Java异常处理:正确处理 Exception 和Error
异常处理Exception 和Error 都是继承了Throwable类,在Java中只有Throwable类型的实例才可以被抛出或者捕获,它是异常处理机制的基本类型。Exception和Error体现了Java平台设计者对不同异常情况的分类。⑴Exception是程序正常运行中,可以预料的意外情况,可能并且应该被捕获,进行相应处理。⑵Exception又分为可检查(checked)异...
2019-05-09 11:20:50 409
原创 Tika:一个强大的Java文档内容解析工具
Tika介绍Apache Tika是基于java的内容检测和分析的工具包,可检测并提取来自上千种不同文件类型(如PPT,XLS和PDF)中的元数据和结构化文本。 它提供了命令行界面、GUI界面和一个java库。Tika可帮助搜索引擎抓取内容后的数据处理。内置解析器会在后台通过外部程序提供的API与之交互,并进行相应的文档内容信息和文档相关信息的解析处理,具体过程如下:Tika通过MimeT...
2019-05-09 11:12:17 7756 1
原创 ThreadLocal和线程安全的日期工具类
ThreadLocal为解决多线程程序的并发问题提供了一种新的思路。使用这个工具类可以很简洁地编写出优美的多线程程序。使用ThreadLocal维护变量时,ThreadLocal为每个使用该变量的线程提供独立的变量副本,所以每一个线程都可以独立地改变自己的副本,而不会影响其它线程所对应的副本。从线程的角度看,目标变量就象是线程的本地变量,这也是类名中“Local”所要表达的意思。以下使用Th...
2019-05-07 19:38:05 697
原创 Java内存分析工具MAT
==MAT(Memory Analyzer Tool)==工具是eclipse的一个插件(MAT也可以单独使用),使用起来非常方便,尤其是在分析大内存的dump文件时,可以非常直观的看到各个对象在堆空间中所占用的内存大小、类实例数量、对象引用关系、利用OQL对象查询,以及可以很方便的找出对象GC Roots的相关信息,当然最吸引人的还是能够快速为开发人员生成内存泄露报表,方便定位问题和分析问题。...
2019-05-07 19:26:31 430
Intellij IDEA调试Elasticsearch 5.4.0源码.pdf
2017-05-26
flink提交任务报错
2021-05-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人