07H_JH
阿里云高级工程师,专注于大数据与数据库领域
展开
-
浅析 StarRocks(DorisDB)
“今天被朋友圈刷屏了,StarRocks开源——携手未来,星辰大海!”DorisDB起初源于百度开源的Apache Doris项目,团队人员部分创业迅速对标同样开源的 ClickHouse这个喀秋莎OLAP数据库。以上性能对比揭开了PK一发不可收拾。DorisDB脱胎于百度广告业务的实时分析场景, 于2018贡献给Apache开源社区, 之后在美团, 小米, 字节跳动, 京东等互联网企业被适用于核心业务实时数据分析。DorisDB的架构设计融合了MPP数据库,以及分布式系统的设计思想,具有.原创 2021-11-04 14:47:54 · 5355 阅读 · 0 评论 -
集群
计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能价格比要高得多。集群分为同构与异构两种原创 2014-06-16 09:38:58 · 875 阅读 · 0 评论 -
Spark
Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位;要想成为Spark高手,需要经历一下阶段:第一阶段:熟练的掌握Scala语言1, Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须转载 2014-08-20 19:47:36 · 744 阅读 · 0 评论 -
基于Hash的查找算法实现
package da;public class MyMap { private int size;// 当前容量 private static int INIT_CAPACITY = 16;// 默认容量 private Entry[] container;// 实际存储数据的数组对象 private static float LO原创 2014-08-23 21:19:48 · 1655 阅读 · 0 评论 -
Hive实践
准备wget http://mirror.bit.edu.cn/apahce/hive/hive-0.11.0/hive-0.11.0-bin.tar.gztar -zxvf hive-0.11.0-bin.tar.gzcd hive-0.11.0-binsudo vi /etc/profile - export HIVE_HOME=/usr/hive-0.11.0-bin - export原创 2016-03-31 11:40:55 · 654 阅读 · 0 评论 -
目标跟踪技术
Boofcv研究:动态目标追踪public class RemovalMoving { public static void main(String[] args) { String fileName = UtilIO.pathExample("D:\\JavaProject\\Boofcv\\example\\tracking\\chipmunk.mjpeg");原创 2016-04-01 13:09:07 · 1258 阅读 · 0 评论 -
直线目标检测技术
Boofcv研究:直线目标检测public class LineDetection { private static final float edgeThreshold = 25; private static final int maxLines = 10; private static ListDisplayPanel listPanel = new ListDisplay原创 2016-04-01 13:15:25 · 914 阅读 · 0 评论 -
感兴趣区域检测技术
Boofcv研究:感兴趣区域检测技术public class ExampleInterestPoint { public static <T extends ImageGray> void detect( BufferedImage image , Class<T> imageType ) { T input = ConvertBufferedImage.convert原创 2016-04-01 13:18:41 · 1763 阅读 · 0 评论 -
spark1.6分布式集群环境搭建
1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMa原创 2016-04-01 13:25:06 · 3144 阅读 · 0 评论 -
spark-TopK算法
Case: 输入:文本文件 输出: (158,) (28,the) (19,to) (18,Spark) (17,and) (11,Hadoop) (10,##) (8,you) (8,with) (8,for)算法: 首先实现wordcount,topk实现是以wordcount为基础,在分词统计完成后交换key/value,然后调用sortByKey进行排序。jav原创 2016-04-01 13:30:45 · 2420 阅读 · 0 评论 -
Intellij Idea环境下Spark源码阅读环境
1. 在windows下搭建Spark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。我的配置:JDK转载 2016-04-01 13:46:14 · 2102 阅读 · 0 评论 -
Scala函数特性
通常情况下,函数的参数是传值参数;即参数的值在它被传递给函数之前被确定。但是,如果我们需要编写一个接收参数不希望马上计算,直到调用函数内的表达式才进行真正的计算的函数。对于这种情况,Scala提供按名称参数调用函数。示例代码如下: 结果: 在代码中,如果定义函数的时候,传入参数不是传入的值,而是传入的参数名称(如代码中使用t: =>原创 2016-04-01 13:51:56 · 1471 阅读 · 3 评论 -
使用Spark框架中文分词统计
技术 Spark+中文分词算法 对爬取的网站文章的关键词进行统计,是进行主题分类,判断相似性的一个基础步骤。例如,一篇文章大量出现“风景”和“酒店”之类的词语,那么这篇文章归类为“旅游”类的概率就比较大。而在关于“美食”的文章中,“餐厅”和“美味”等词语出现的频率一般也会比较大。 分词使用语言云http://www.ltp-cloud.com实现对一段中文先进行分词,然后通过Spar原创 2016-03-25 18:22:07 · 4786 阅读 · 0 评论 -
Hash分析
列表内容 Hash表中的一些原理/概念,及根据这些原理/概念,自己设计一个用来存放/查找数据的Hash表,并且与JDK中的HashMap类进行比较。 我们分一下七个步骤来进行。 Hash表概念 在Hash表中,记录在表中的位置和其关键字之间存在着一种确定的关系。这样 我们就能预先知道所查关键字在表中的位置,从而直接通过下标找到记录。 1) 哈希(Hash)函数是一个映象,即: 将关键字的原创 2016-03-25 18:29:06 · 1637 阅读 · 0 评论 -
Spark-数据分析可视化Zeppelin
官网介绍Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark, hive, tajo等,原生支持scala, Java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的。安装其他组件都是好安装的,直接mvn install是没问题的。 而且zepp原创 2016-04-26 12:21:21 · 9834 阅读 · 0 评论 -
Spark-RDD API
EnglishThe RDD API By ExampleaggregateThe aggregate function allows the user to apply two different reduce functions to the RDD. The first reduce function is applied within each partition to reduce the原创 2016-05-10 16:55:05 · 2412 阅读 · 0 评论 -
Spark-ML-01-小试spark分析离线商品信息
任务一个在线商品购买记录数据集,约40M,格式如下:Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99完成统计: 1.购买总次数 2.客户总个数 3.总收入 4.最畅销的商品代码import java.util.Collections;import java.原创 2016-05-10 22:32:18 · 1855 阅读 · 0 评论 -
Spark-基础-Spark及其生态圈简介
1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spa转载 2016-05-24 11:43:34 · 2318 阅读 · 0 评论 -
Spark-基础-Spark编译与部署环境搭建
1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS6.5 64位,单核,1G内存l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为转载 2016-05-24 11:45:20 · 764 阅读 · 0 评论 -
Spark-基础-Spark编译与部署--Hadoop编译安装
1、编译Hadooop1.1 搭建环境1.1.1 安装并设置maven1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下http://mirror.bit.edu.cn/apache/maven/maven-3/2. 使用ssh工具把maven包上传到/home/hadoop/upload目录3. 解压缩转载 2016-05-24 11:46:46 · 675 阅读 · 0 评论 -
Spark-基础-Spark编译与部署--Spark编译安装
1、编译Spark(1.1版本)Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2、maven下载大文件是多线转载 2016-05-24 11:48:27 · 4976 阅读 · 0 评论 -
Spark-ML-02-设计机器学习系统
机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见。人工也是不可以完全抛开的,比如监督式的学习,靠人工;来标记数据,训练模型。文本标记和文本的情感标识别,还有就是破解验证码时基于CNN大量的训练集要靠人来处理,也是醉了,那是很累啊。模型出来后,可以做成服务整合到其他系统中, 机器学习应用在:个原创 2016-05-10 23:41:58 · 1340 阅读 · 0 评论 -
Spark-Spark Streaming-广告点击的在线黑名单过滤
任务广告点击的在线黑名单过滤 使用 nc -lk 9999 在数据发送端口输入若干数据,比如:1375864674543 Tom1375864674553 Spy1375864674571 Andy1375864688436 Cheater1375864784240 Kelvin1375864853892 Steven1375864979347 John代码import org原创 2016-05-11 12:29:15 · 4079 阅读 · 5 评论 -
Spark-SparkSQL深入学习系列一(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点: 1、整合:将SQL类型的查询语言整合到 Spark 的核心RDD概念里。这样可以应用于多种任务,流处理,批转载 2016-05-11 19:22:41 · 1336 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列二(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ Spark SQL的核心执行流程我们已经分析完毕,可以参见Spark SQL核心执行流程,下面我们来分析执行流程中各个核心组件的工作职责。 本文先从入口开始分析,即如何解析SQL文本生成逻辑计划的,主要设计的核心组件式SqlParser是一个SQL语言的解析器,用scala实现的Parser将解析的结果封装为Catal转载 2016-05-11 19:25:19 · 1339 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列三(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql,经过解析生成Unresolved Logical Plan的。我们记得Spark SQL的执行流程中另一个核心的组件式Analyzer,本文将会介绍Analyzer在Spark SQL里起到了什转载 2016-05-11 19:26:30 · 813 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列四(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode这个Catalyst的核心概念,介绍这个可以更好的理解Optimizer是如何对Analyzed Logical Plan进行优化的生成Optimized L转载 2016-05-11 19:28:08 · 981 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列五(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式,并加上自己的实践,对Optimizer有一个直观的认识。 Optimize转载 2016-05-11 19:29:27 · 1310 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列六(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是Spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下Catalyst里最后的一个Plan了,即Physical Plan。物理计划是Spark SQL执行Spark job的前置,也是最后一道计划。转载 2016-05-11 19:30:39 · 2135 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列七(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节: 我们都知道一段sql,真正的执行是当你调用它的collect()方法才会执行Spark Job,最后计算得到RDD。[java] view plain copy转载 2016-05-11 19:33:22 · 1939 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列八(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 在SQL的世界里,除了官方提供的常用的处理函数之外,一般都会提供可扩展的对外自定义函数接口,这已经成为一种事实的标准。 在前面Spark SQL源码分析之核心流程一文中,已经介绍了Spark SQL Catalyst Analyzer的作用,其中包含了ResolveFunctions这个解析函数的功能。但是随着Spark1.转载 2016-05-11 19:35:45 · 719 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列九(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效率。 这就涉及到内存中的数据的存储形式,我们知道基于关系型的数据可以存储为基于行存储结构 或 者基于列存储结构,或者基于行和列的混合存储,即Row Based Stor转载 2016-05-11 19:36:05 · 1644 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列十(转自OopsOutOfMemory)
/** Spark SQL源码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。 那么基于以上存储结构,我们查询cache在jvm内的数据又是如何查询的,本文将揭示查询In-Memory Data的方式。一、引子本例使用hive console里查询cache后的src表。selec转载 2016-05-11 19:37:32 · 769 阅读 · 0 评论 -
Spark-SparkSQL深入学习系列十一(转自OopsOutOfMemory)
上周Spark1.2刚发布,周末在家没事,把这个特性给了解一下,顺便分析下源码,看一看这个特性是如何设计及实现的。 /** Spark SQL源码分析系列文章*/ (Ps: External DataSource使用篇地址:Spark SQL之External DataSource外部数据源(一)示例 http://blog.csdn.net/oopsoom/article转载 2016-05-11 19:38:23 · 1326 阅读 · 0 评论 -
Spark实践-日志查询
环境 win 7 jdk 1.7.0_79 (Oracle Corporation) scala version 2.10.5 spark 1.6.1 详细配置: Spark Propertiesspark.app.id local-1461891171126spark.app.name JavaLogQueryspark.driver.host 10.1原创 2016-04-29 18:25:05 · 8147 阅读 · 0 评论 -
大数据日志分析logstash\elasticsearch\kibana
elk是指logstash,elasticsearch,kibana三件套,这三件套可以组成日志分析和监控工具注意:关于安装文档,网络上有很多,可以参考,不可以全信,而且三件套各自的版本很多,差别也不一样,需要版本匹配上才能使用。推荐直接使用官网的这一套:elkdownloads。比如我这里下载的一套是logstash 1.4.2 + elasticsearch 1.4.2 + k原创 2016-05-03 10:19:26 · 1337 阅读 · 0 评论 -
elk+redis 搭建nginx日志分析平台
elk+redis 搭建nginx日志分析平台logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢?首先,架构方面,nginx是有日志文件的,它的每个请求的状态等都有日志文件进行记录。其次,需要有个队列,redis的list结构正好可以作为队列使用。然后分析使用elasticsearch就可以进行分析和查询了。我们需要的是一个分布式的,日志收集原创 2016-05-03 10:23:32 · 1030 阅读 · 0 评论 -
Kylin - 分析数据
I. Create a ProjectGo to Query page in top menu bar, then clickManage Projects.Click the + Project button to add a new project.Enter a project name, e.g, “Tutorial”, with a descrip原创 2016-05-26 16:34:48 · 4353 阅读 · 0 评论 -
安装Kylin
EnvironmentKylin requires a properly setup Hadoop environment to run. Following are the minimal request to run Kylin, for more detial, please checkHadoop Environment.It is most common to insta原创 2016-05-26 16:35:49 · 1710 阅读 · 0 评论 -
Kylin Cube Build and Job Monitoring
Kylin Cube Build and Job MonitoringCube BuildFirst of all, make sure that you have authority of the cube you want to build.In Models page, click the Action drop down button in the right of原创 2016-05-26 16:37:10 · 1241 阅读 · 0 评论