07H_JH-CSDN博客

原创浅析 StarRocks(DorisDB)

“今天被朋友圈刷屏了，StarRocks开源——携手未来，星辰大海！”DorisDB起初源于百度开源的Apache Doris项目，团队人员部分创业迅速对标同样开源的 ClickHouse这个喀秋莎OLAP数据库。以上性能对比揭开了PK一发不可收拾。DorisDB脱胎于百度广告业务的实时分析场景，于2018贡献给Apache开源社区，之后在美团，小米，字节跳动，京东等互联网企业被适用于核心业务实时数据分析。DorisDB的架构设计融合了MPP数据库，以及分布式系统的设计思想，具有.

2021-11-04 14:47:54 5168

翻译一个分布式测试系统利器

Create an EC2 instanceSign up for AWSIn Services -> EC2, click “Launch Instance”Choose the 64 bit Debian Jessie imageHit review and launchSave your SSH key pair!Install JavaSSH into your ins

2017-08-27 20:03:33 1610

转载 Kudu

GoalKudu 主要面向 OLAP 应用，支持大规模数据存储，支持快速查询，并且支持实时数据更新。相比Hive 之类的SQL on Hadoop，性能会好不少，并且支持数据实时更新，这也是 Hive 的一个痛点；相比于一个传统的 OLAP 数据库，它所支持的数据规模可能要大一点，毕竟 Kudu 是水平扩展的。Kudu 的paper里提到，它的一个设计目标是统一存储日志数据和线上数据，并且

2017-06-10 13:17:43 3537

原创 Spark Streaming和Flink的Word Count对比

准备：nccat for windows/linux 都可以通过 TCP 套接字连接，从流数据中创建了一个 Spark DStream/ Flink DataSream, 然后进行处理, 时间窗口大小为10s 因为示例需要, 所以需要下载一个netcat, 来构造流的输入。代码：spark streamingpackage cn.kee.spark;public f

2017-05-02 16:28:44 1640

转载 Java反射在JVM的实现

本文目录什么是Java反射，有什么用？Java Class文件的结构Java Class加载的过程反射在native的实现附录1. 什么是Java反射，有什么用？反射使程序代码能够接入装载到JVM中的类的内部信息，允许在编写与执行时，而不是源代码中选定的类协作的代码，是以开发效率换运行效率的一种手段。这使反射成为构建灵活应用的主要工具。反射可以：调用一些

2017-02-23 13:52:45 1807

转载快排的思考

9.9.1 快速排序介绍终于我们的高手要登场了，如果将来你工作后，你的老板要让你写个排序算法，而你会的算法中竟然没有快速排序，我想你还是不要声张，偷偷去把快速排序算法找来敲进电脑，这样至少你不至于被大伙儿取笑。事实上，不论是C++ STL、Java SDK或者.NET FrameWork SDK等开发工具包中的源代码里都能找到它的某种实现版本。

2017-02-21 22:53:52 1088

转载线程池

线程池的源码及原理[JDK1.6实现]1.线程池的包含的内容2.线程池的数据结构【核心类ThreadPoolExecutor】： worker：工作类，一个worker代表启动了一个线程，它启动后会循环执行workQueue里面的所有任务workQueue：任务队列，用于存放待执行的任务keepAliveTime：线程活动保持时间，线程池的工作线程空闲后，保

2017-02-18 14:55:23 1014

转载 Mysql的索引和慢查询优化

MySQL凭借着出色的性能、低廉的成本、丰富的资源，已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色，但所谓“好马配好鞍”，如何能够更好的使用它，已经成为开发工程师的必修课，我们经常会从职位描述上看到诸如“精通MySQL”、“SQL语句优化”、“了解数据库原理”等要求。我们知道一般的应用系统，读写比例在10:1左右，而且插入操作和一般的更新操作很少出现性能问题，遇到最多的，也是最容易出问

2017-02-15 22:10:20 690

转载 OLTP新贵G家F1的替代者TiDB

HBase 简介众所周知，在 SQL 方面处于顶级的有两个公司，一个是 Oracle，他们已经积累了大量的经验，另一个是谷歌，谷歌 F1 在2012年发布了一篇论文，个人认为它是全球最优秀的 SQL OLTP 数据库。1978年左右，数据库刚刚发展时出现了SQL RDBMS。2000年左右，国内开始流行互联网，互联网对 Oracle 数据库也产生较大的冲击。现在，传统的数据库大

2017-02-15 22:09:46 2769

转载 Big Mysql的中间件

淘宝根据自身业务需求研发了TDDL（Taobao Distributed Data Layer）框架，主要用于解决分库分表场景下的访问路由（持久层与数据访问层的配合）以及异构数据库之间的数据同步，它是一个基于集中式配置的JDBC DataSource实现，具有分库分表、Master/Salve、动态数据源配置等功能。就目前而言，许多大厂也在出一些更加优秀和社区支持更广泛的DAL层产品，比如Hibe

2017-02-15 21:22:49 1059

转载 java-技术-Java类中热替换的概念、设计与实现

类的热替换是Java在线升级系统设计中的基础技术，从文中给出的实例来看，构建在线升级系统不仅仅是一个技术问题，还牵扯到很多管理方面的因素，比如：如何管理、部署系统中的可在线升级部分和不可在线升级部分以降低系统的管理、维护成本等。对于许多关键性业务或者庞大的Java系统来说，如果必须暂停系统服务才能进行系统升级，既会大大影响到系统的可用性，同时也增加了系统的管理和维护成本。因此，如果能够方便

2017-02-13 15:10:01 724

转载 System.arraycopy

当我还年幼的时候，我很任性，复制数组也是，写一个for循环，来回倒腾，后来长大了，就发现了System.arraycopy的好处。为了测试俩者的区别我写了一个简单赋值int[100000]的程序来对比，并且中间使用了nanoTime来计算时间差：程序如下： int[] a = new int[100000]; for(int i=0;i){

2016-12-09 17:12:54 754

转载 java轻量级IOC框架Guice

Guice是由Google大牛Bob lee开发的一款绝对轻量级的java IoC容器。其优势在于：速度快，号称比spring快100倍。无外部配置(如需要使用外部可以可以选用Guice的扩展包)，完全基于annotation特性，支持重构，代码静态检查。简单，快速，基本没有学习成本。Guice和spring各有所长，Guice更适合与嵌入式或者高性能但项目简单方案，如OSGI容器，s

2016-12-09 16:24:54 930

转载 Elasticsearch架构

Elasticsearch 是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建。最近研究了一下，感觉 Elasticsearch 的架构以及其开源的生态构建都有许多可借鉴之处，所以整理成文章分享下。本文的代码以及架构分析主要基于 Elasticsearch 2.X 最新稳定版。Elasticsearch 看名字就能大概了解下它是一个弹性的搜

2016-12-09 16:03:36 3468

转载 Apache Solr vs Elasticsearch-feature

APIFeatureSolr 6.2.1ElasticSearch 5.0FormatXML, CSV, JSONJSONHTTP REST APIBinary API SolrJ TransportClient, Thrift (through a plu

2016-12-09 14:47:24 1172

转载 DistributedLog

我们在2016年五月开源了DistributedLog项目，引起了社区的广泛关注。大家常常问起的问题之一就是DistributedLog与Apache Kafka相对比，各有什么优劣。从技术上来讲DistributedLog并不是一个象Apache Kafka那么成熟的、有分区机制的广播/订阅系统。DistributedLog是一个复制日志流仓库，它用Apache BookKeeper来做

2016-11-21 15:52:26 1214

转载 ES问题

Elasticsearch是一个开源的分布式实时搜索与分析引擎，支持云服务。它是基于Apache Lucene搜索引擎的类库创建的，提供了全文搜索能力、多语言支持、专门的查询语言、支持地理位置服务、基于上下文的搜索建议、自动完成以及搜索片段(snippet)的能力。Elasticsearch支持RESTful的API，可以使用JSON通过HTTP调用它的各种功能，包括搜索、分析与监控。此外，它还为

2016-11-17 21:45:23 1481

转载 ES5.0 新版本的特性与改进

Elasticsearch 5.0 新版本的特性与改进时间 2016-07-27 07:39:26 公众账号原文 http://mp.weixin.qq.com/s?__biz=MzA5NzkxMzg1Nw==&mid=2653160245&idx=1&sn=7e9482ec410cc89cf40c0f21724dae32&scene=1&srcid=0727t9nOGxnSz5q

2016-11-15 18:01:34 3990

翻译 G厂的-Borg

Borg定位于解决什么问题？与绝大多数集群操作系统(Cluster Operation System)一样，Borg立足于解决以下三方面的问题：1. 屏蔽底层基础设施，使得产品线专注于自身需求当系统规模大到一定程度，许多基础设施的升级，比如更换系统内核/基础库环境(glibc, kernel等)、底层网络建设等，都不可避免的会被上层业务感知、需要逐个推动业务线的升级调整，实

2016-11-11 16:27:49 1015

原创 Palo

区别于Kylin它底层用的mpp，Palo是百度基础架构部数据团队所开发的一套面向大规模数据分析的并行数据库系统。主要目标是支撑稳定的、在线的、交互式的数据报表(Reporting)和数据多维分析（OLAP）服务。Palo 的一个很大的特色是:将会满足报表和OLAP分析这两类不同的需求。Palo在整个分析体系中所承担的是数据库的角色，只是这个数据库是并行的、面向分析的数据库系统。然后在

2016-10-24 17:59:52 5979

原创 PaddlePaddle

贾扬清深度学习（Deep Learning）、机器学习话题优秀回答者靖难等 469 人赞同今天刚看到的，简单说一些第一印象（以目前的github repo为准）。整体的设计感觉和Caffe心有灵犀，同时解决了Caffe早期设计当中的一些问题（比如说default stream）。1. 很高质量的GPU代码2. 非常好的RNN设计3. 设计很干净，没有太

2016-10-22 18:59:21 4691 2

转载 Fully Convolutional Networks for Semantic Segmentation(全卷积网络FCN）

可以看看：https://github.com/jinhang/fcn【论文信息】《Fully Convolutional Networks for Semantic Segmentation》CVPR 2015 best paperReference link: http://blog.csdn.NET/tangwei2014http://blog.c

2016-10-22 18:43:18 1222

转载 R-FCN: Object Detection via Region-based Fully Convolutional Networks

1. 简介物体检测的深度网络按感兴趣区域 (RoI) 池化层分为两大主流：共享计算的全卷积子网络 (每个子网络与 RoI 无关) 和不共享计算的作用于各自 RoI 的子网络。工程分类结构 (如 Alexnet 和 VGG Nets) 造成这样的分流。而工程上的图像分类结构被设计为两个子网络——1个后缀1个空间池化层的卷积子网络和多个全连接层。因此，图像分类网络中最后的空间池化层自然变成了

2016-10-22 18:40:46 1035 2

原创 SSD: Single Shot MultiBox Detector

有参考：http://blog.csdn.net/u010167269/article/details/52563573SSD: Single Shot MultiBox DetectorBy Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng

2016-10-22 18:39:22 3560 4

转载 ES in Hive

ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用，尤其是在添加数据的时候，可以使用分布式任务来添加索引数据，尤其是在数据平台上，很多数据存储在Hive中，使用Hive操作ElasticSearch中的数据，将极大的方便开发人员。这里记录一下Hive与ElasticSearch整合，查询和添加数据的配置使用过程。基于Hi

2016-10-10 14:54:28 2137

转载 ES集群安装配置

ElasticSearch是一个开源搜索服务框架，它已经成为搜索解决方案领域的重要成员。ElasticSearch还经常被用作文档数据库，这主要得益于它的分布式特性和实时搜索能力，另外，ElasticSearch支持越来越多的聚合功能，而且和Yarn、Hadoop、Hive、Pig、Spark、Flume等大数据处理框架的兼容性越来越好。我主要是想调研一下看是否能将它用于实时的数据搜索统计、以及实

2016-10-10 14:53:37 1318

转载 SQL for ES

之前介绍过ElasticSearch，它部署简单，搜索聚合功能强大，而且和其他大数据框架整合起来使用，有一点比较不方便，就是查询都需要通过JSON作为请求Body来提交查询，请求响应也是JSON，作为习惯使用SQL的我，迫不及待的试用了一下Crate（crate.io），它是在ElasticSearch之上封装了SQL接口，用户可以通过SQL语句来完成搜索和统计，支持的SQL语法还蛮多的，很想My

2016-10-10 14:52:25 5247

转载 ES in BI

一直想找一个用于大数据平台实时OLAP（甚至是实时计算）的框架，之前调研的Druid（druid.io）太过复杂，整个Druid由5、6个服务组成，而且加载数据也不太方便，性能一般，亦或是我还不太会用它。后来发现使用ElasticSearch就可以满足海量数据实时OLAP的需求。ElasticSearch相信大家都很熟悉了，它在搜索领域已经有了举足轻重的地位，而且也支持越来越多的聚合统计功能，

2016-10-10 14:51:19 931

转载 elasticsearch命令

1.如何关闭ES，elasticsearch关闭办法1.使用head插件找到想关掉的节点进行关停2.使用命令kill杀掉服务器的ES进程即可1.查找ES进程ps -ef | grep elastic2.杀掉ES进程kill -9 2382（进程号）3.重启ESsh elasticsearch -d2

2016-10-10 11:24:32 6174

转载 Prometheus

Visit prometheus.io for the full documentation, examples and guides.Prometheus, a Cloud Native Computing Foundation project, is a systems and service monitoring system. It collects metrics from co

2016-10-06 11:11:42 1041

原创 go解析Prometheus的数据

访问一个api, 返回如下数据：{"status":"success","data":{"resultType":"matrix","result":[{"metric":{},"values":[[1473820558.361,"28765"],[1473820573.361,"28768"],[1473820588.361,"28772"],[1473820603.361,"287

2016-09-28 20:38:34 4576

转载大数据的那些事儿

资源列表：关系数据库管理系统（RDBMS）框架分布式编程分布式文件系统文件数据模型 Key -Map 数据模型键-值数据模型图形数据模型 NewSQL数据库列式数据库时间序列数据库类SQL处理数据摄取服务编程调度机器学习基准测试安全性系统部署应用程序搜索引擎与框架 MySQL的分支和演化 PostgreSQ

2016-09-26 21:20:41 4960

转载 ACID

ACID，指数据库事务正确执行的四个基本要素的缩写。包含：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。一个支持事务（Transaction）的数据库，必需要具有这四种特性，否则在事务过程（Transaction processing）当中无法保证数据的正确性，交易过程极可能达不到交易方的要求。原子

2016-08-30 12:30:11 605

转载海量数据处理技巧

目录(?)[-] 教你如何迅速秒杀掉99的海量数据处理面试题前言何谓海量数据处理第一部分从setmap谈到hashtablehash_maphash_set第二部分处理海量数据问题之六把密匙密匙一分而治之Hash映射 Hash_map统计堆快速归并排序密匙二多层划分密匙三Bloom filterBitmapBloom filterBitmap密匙四Trie树

2016-08-26 11:12:18 913

原创面试-百度大数据部门RD

经过面试，顺利拿到了百度RD,大数据部门。一面是下午在老校区篮球场打球接到的电话，聊了一点儿，由于有点儿吵，约在了第二天的早上八点，百度RD时间观念超强，一早就是八点整，不差一秒，接到电话后，开始就是问简历上的专业技能几个，重要问了我java、jvm、hadoop等一些问题，着重问了hadoop的底层原理和项目。发现一般面试都是问你说下你简历上最熟悉自豪的一个项目，那么你就得特备别熟悉，特别

2016-08-10 22:11:40 7858 1

转载 java-工具-轮子

几乎每个程序员都知道要“避免重复发明轮子”的道理——尽可能使用那些优秀的第三方框架或库，但当真正进入开发时，我却经常发现他们有时并不知道那些轮子在哪里。最近，我在业余时间带几个年轻的程序员一起做了一个很小的商业项目，而在一起开发的过程中，我几乎在所有需要判断字符串是否为空的地方，看到了下面的代码：if(inputString == null || inputString.length == 0){.

2016-08-07 11:30:52 3941 1

转载 ES java api

2.0之后ES的java api用法有了很大变化。在此记录一些。java应用程序连接ES集群，笔者使用的是TransportClient，获取TransportClient的代码设计为单例模式（见getClient方法）。同时包含了设置自动提交文档的代码。注释比较详细，不再赘述。下方另有提交文档、提交搜索请求的代码。1、连接ES集群代码如下： 1 packa

2016-08-06 12:13:27 3503

转载 elasticsearch2.1部署

Ubuntu下Elasticsearch 2.1集群部署过程与遇到的问题及解决方法（开机自启动、root用户启动）SEO：ES 2.0 2.1 Elastic Elasticsearch Linux Ubuntu root start stop 开机启动开机自启动安装部署使用脑裂无法不能发现集群节点（本文适合有一定Linux基础的读者阅读。由

2016-08-06 12:07:17 1097

转载 java-jvm-full gc频繁的分析及解决

返回博客列表转关于施用full gc频繁的分析及解决 DEC_LIU发布时间: 2013/10/13 20:32 阅读: 3431 收藏: 14 点赞: 1 评论: 1关于应用full gc频繁的分析及解决很久前的工作日记了，移到ITeye上来。现象系统报警full gc次数过多，每2分钟达到了5～6次，这是不正常的现象

2016-08-04 10:21:57 9755

转载 java-jvm-GC剖析

Java垃圾回收概况　　Java GC（Garbage Collection，垃圾收集，垃圾回收）机制，是Java与C++/C的主要区别之一，作为Java开发者，一般不需要专门编写内存回收和垃圾清理代码，对内存泄露和溢出的问题，也不需要像C程序员那样战战兢兢。这是因为在Java虚拟机中，存在自动内存管理和垃圾清扫机制。概括地说，该机制对 JVM（Java Virtual Machine）

2016-08-04 10:20:56 724