自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 一步到位,用SQL检索ElasticSearch

     在介绍MOQL的上一篇文章《SQL to ElasticSearch DSL》里,提到了如何将SQL语法转换为ElasticSearch DSL的用法。这期间还出现乌龙事件,就是最新的代码并未提交到GitHub上,功能用不了,如今已经连同本次支持的内容全部更新提交。    上次介绍,MO...

2018-06-09 23:17:35 694 1

原创 opipe--一款基于java的自定义“命令”管道

opipe是一个“命令”管道,其设计思路与linux的命令管道一致。不同的是,linux的命令管道串联了一组命令,命令间是以输入、输出流串联在一起的。而opipe实际为一个操作(函数)的管道,操作间以返回值及调用参数的方式串联在一起,即opipe会用前一个操作的返回值作为输入参数调用后一个操作,并...

2019-11-30 22:39:59 83 0

原创 SQL to ElasticSearch DSL改进

最近团队在使用MOQL的SQL到ElasticSearch DSL转换时提出,该转换器不能完成深度分页场景的应用。而ElasticSearch为该类应用提供了“search_after”的参数解决方案。ElasticSearch的这个解决方案使得前后两个QUERY DSL有了上下文依赖,后续的查询...

2019-10-17 20:06:42 65 1

原创 Tpos时间定位表达式

Tpos ​ Tpos是一款用于计算时间位置的工具。在开发系统的过程中,我们经常会遇到需要指定时间位置的需求。比如:在任务调度系统中,我们需要指定任务的执行周期。如要求任务在每天早晨10点执行;要求任务在20分钟后执行等。这类时间定位需求目前已经有了比较好的解决办法,就是开源任务调度框架Quar...

2019-09-02 01:14:54 60 0

原创 SQL to ElasticSearch DSL

        众所周知ElasticSearch目前是一个应用最为广泛的分布式搜索与分析引擎,它的功能强大,能够已很高的性能访问大规模数据。它拥有强大的查询分析语法,能够完成模糊查询、精准查询及聚集计算等诸多功能的表达。但对于那些用惯了SQL语言的数据分析人员来说,掌握ElasticSearch...

2018-04-20 22:39:42 3733 0

原创 MOQL-复杂事件处理(CEP)

MOQL做为一款基于Java的面向内存对象的过滤、查询及统计分析工具,有非常丰富的应用场景。复杂事件处理就是其应用场景之一。MOQL工程在迁移到GitHub之后,进行了一次大的调整。整个项目被拆分成了moql-core和moql-cep两个模块。其中moql-core即原来的moql主工程,而mo...

2017-02-06 20:03:04 1737 0

原创 时间定位表达式-用于时间的加、减调整

在笔者开发的应用中,经常会遇到用户对数据有按照时间进行查询或监视的需求。用户对此类需求往往是希望可以输入一个已当前时间为准,向前回溯或向后延展一定时间的一个时间段。时间段可以是一天、一周、一个月,也可以是十天、一百天、十周等。为可以灵活满足此类需求,笔者写了一个专门做时间定位运算的表达式--“时间...

2015-07-05 00:03:37 534 1

转载 Nmap 空闲扫描

转载自:http://tcshare.org/nmap%E7%A9%BA%E9%97%B2%E6%89%AB%E6%8F%8F/ Nmap TCP 空闲扫描(-sI)       1998年,安全研究员Antirez (本书中hping2工具的作者)在Bugtraq邮件列表上,...

2015-01-25 23:13:43 1524 0

原创 技术团队的聚散离合--案例故事,献给曾经的团队

在点了“发送”按钮,发出了一小时后召开部门关于某部委数据分析平台项目的技术研讨会的邮件后,孙同望着屏幕,陷入沉思。思绪回到了2013年的2月份…… 职业困境,孙同无奈转型        春节刚过,上班第二天的一大早,孙同就被张欣副总通知到办公室来一下。他估计是跟自己昨天同李总的对话有关。就在昨天,...

2015-01-19 20:35:02 1025 2

转载 RDD:基于内存的集群计算容错抽象

原文参见:http://www.iteblog.com/archives/1188 摘要   本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开...

2014-11-25 23:18:06 790 0

原创 如何在Hadoop2上远程调试MapReduce

1.单机安装Hadoop2.x。 2.修改mapper-site.xml配置 EntityMap entityMap = new EntityMapImpl(); entityMap.putEntity("num", 12); entityMap.p...

2014-11-18 23:10:59 1172 0

原创 macos下如何配置ssh无密码登录

macos下配置ssh无密码登录的过程与linux下配置ssh无密码deng

2014-07-10 00:08:29 968 0

原创 读“产品经理那些事儿”有感

《产品经理那些事儿》的作者以自己s

2014-05-22 23:27:06 761 0

原创 MOQL--面向流的统计过滤技术

坦白讲在实现了moql以后,总想把它适用的范围写出来,却发现总也表达不清楚。原本写这个开源项目的初衷是因为在自己开发的产品中,会实时的,不断的收集各类数据。对于这些数据会对它们进行格式化、映射等实时的处理,也会有对数据进行过滤及统计分析的需求,最后还要将数据入库。对于数据的过滤与统计需求,同行都是...

2013-12-08 00:04:06 823 0

原创 备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具

SPSS、RapidMiner、KNIME以及Kettle四款工具都可以用来进行数据分析,只是彼此有各自的侧重点和有劣势。它们都可以逐步的定义数据分析过程,也同样都可以对数据进行ETL处理。笔者从自己关心的角度简单对比以上四款数据分析工具。        SPSS不用多说,一款成功的商业数据分析软...

2013-08-02 16:31:52 3980 0

转载 方差(Variance)和标准差(Standard Deviation)

转自:http://book.51cto.com/art/201004/193276.htm 方差是总体所有变量值与其算术平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。   ...

2013-07-27 17:43:39 8333 0

转载 峰度(Kurtosis)和偏度(Skewness)

转自:http://book.51cto.com/art/201004/193277.htm 峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰...

2013-07-27 17:41:36 5045 0

转载 四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles

转自:http://book.51cto.com/art/201004/193278.htm 四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三...

2013-07-27 17:40:05 19702 0

转载 全距(Range)

转自:http://book.51cto.com/art/201004/193275.htm 全距,又称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对差,借以表明总体标志值最大可能的差异范围。全距越长,说明数据越离散;反之,全距越小,说明数据越集中。 用符号...

2013-07-27 00:01:26 1376 0

转载 众数(Mode)

转自:http://book.51cto.com/art/201004/193274.htm 众数是指总体数据中出现次数最多的变量,用Mode表示。它同样不受数据极端值的影响,从而在一定程度上提高了平均水平的代表性。例如,制衣厂可以根据消费者所需服装尺码的众数来安排生产。此外,如果众数的值出...

2013-07-26 23:59:47 1127 0

转载 均值(Mean)和均值标准误差(S.E. Mean)

均值(平均数、平均值)表示的是某个变量所有取值的集中趋势或平均水平。例如,某班学生数学考试的平均成绩、公司员工的平均收入、某年级学生的平均身高、某高校高招录取平均分等。 平均数有总体平均数和样本平均数之分。 总体平均数:若一组数据X1,X2,……,XN代表一个大小为N的有限总体,则其总体平均数...

2013-07-26 23:55:23 12708 0

转载 中位数(Median)

转自:http://book.51cto.com/art/201004/193273.htm 中位数是将总体数据的各个数值按大小顺序排列,居于中间位置的变量,用Median表示。中位数将所有的数据等分成两半,中位数两端的数据个数相同,因此它也被称为二分位数。中位数的确定,仅仅取决于它在数...

2013-07-26 23:45:22 971 0

转载 moment, 一阶矩,二阶矩, 随机变量

在物理中,有力矩(moment of force)= F*L (力* 力臂) 在概率统计中,有一阶矩,二阶矩, 三阶矩,四阶矩。 不严格的讲,这个”矩“是用来描述  一个点集合的形状。比如,一维上的中点,二维上的一个椭圆,或是用来描述距离 中点(或 最高点)偏离情况。 最常见的用法, ...

2013-07-26 23:31:05 11214 0

原创 MOQL—转换器(Translator)

MOQL是一个面向内存对象设计的查询统计分析工具,其语法兼容SQL标准。其语法结构除支持如下: select count(a.id) cnt, sum(a.num) sum, a.num%500 mod from BeanA a group by 3 having mod > 10 ...

2013-07-24 10:45:33 1413 0

原创 读"淘宝技术这十年"有感

工作十几年了,拿了这本书看看,可以引起很多思想的共鸣,也能对淘宝的技术发展有一个大致的了解。读完这本书,可以看到淘宝技术力量的雄厚,以及支撑淘宝技术发展的技术人员的坚持。总体来说有一下几个特别感受: 1。马总(马云)的确是商业奇才,眼光独到。当年做淘宝时为迅速占领市场,买了个系统做基础,派几个人进...

2013-07-12 00:08:42 1787 0

原创 实时统计分析技术浅谈

实时统计分析技术主要是为了满足数据应用中大家对数据的变化情况有一个较高时间灵敏度需求的情况。应用要求能够近乎及时的反映数据的整体变化情况。那么实时统计分析的核心关键点是实时性,也就是性能。其还伴有另一个明确的特征,就是对于要统计的内容是十分明确的。     传统上,我们的数据统计分析方法是在一个...

2013-05-22 08:40:32 1865 0

原创 MOQL—筛选器(Selector)(三)

HAVING子句          与SQL语法一致,描述了对group by子句中产生的组数据进行过滤的过滤条件。Having子句中的所有字段都需要是select子句中的列,与where不同的是,这里是对分组结果数据的过滤,而where是对原始表数据进行的。 [having SEARCH...

2013-05-14 01:16:44 881 0

原创 MOQL—筛选器(Selector)(二)

FROM子句          描述了查询从哪些数据表中获取数据。语法如下: from TABLE [[as] ALIAS] [,...] [[inner|left|right|full] join] TABLE [[as] ALIAS] [on SEARCH_...

2013-05-07 23:26:24 1031 0

原创 MOQL—筛选器(Selector)(一)

Selector是MOQL提供的最核心的功能,它相当于SQL(结构化查询语言)中DQL(数据查询语言)的功能,即我们通常所说的Select关键字所描述的查询功能。它能够对Java内存中的对象数据进行查询、统计以及集合(如:UNION)操作。它可用于对持续不断产生的数据进行实时统计。即预先设定好统计...

2013-05-06 09:57:33 946 0

原创 MOQL—过滤器(Filter)

Filter是MOQL提供的主要功能之一,它支持SQL语法中Where部分的语法描述,能够通过编写条件语句对内存中的数据进行条件匹配。它可以用于对从数据库中查询回的数据集进行二次查询的功能;还能够用于数据处理时对数据流的实时过滤等。 Filter功能建立在Operand的基础上,Operand决...

2013-04-15 09:16:52 962 0

原创 MOQL--操作数(Operand) (四)

表达式Operand         表达式Operand是MOQL语法中格式最丰富且复杂的一类、。它包括数组表达式、数学运算表达式以及成员表达式三种类型。另外,在MOQL源代码中我们还可以看到,表达式Operand至少还包括关系运算表达式以及逻辑运算表达式。但这两种表达式无法通过MoqlUti...

2013-04-11 08:13:00 2016 0

原创 MOQL--操作数(Operand) (三)

函数Operand         函数Operand的格式如下:函数名(参数1,参数2…)。函数名与Java语法中标示符的命名规范一致,该命名规范已在变量Operand中进行了描述。其每一个参数都是一个Operand,Operand可以是常量、变量、函数或者表达式中的任意一种。如:sum(...

2013-04-06 10:11:40 979 0

原创 MOQL--操作数(Operand) (二)

常量Operand         Operand支持的常量类型包括字符串型(String)、双浮点型(Double)、长整型(Long)以及NULL类型。            字符串Operand的格式与SQL中字符串的格式一致。字符串的两端需要用单引号(‘)包围,如:’String’、’...

2013-04-05 10:52:10 732 0

原创 MOQL--操作数(Operand) (一)

Operand是MOQL语法结构的重要组成部分,语法结构中那些需要被分析处理的数据列或数据值都被称之为Operand。如select后跟的数据列,where条件中描述的条件字段以及需要匹配的常数值等都被称之为Operand。如下面语句中的红色字体部分,均表示是一个Operand。通过对其计算,我们...

2013-04-04 10:42:07 1132 0

原创 MOQL简介

MOQL(MemoryObject Query Language)是一款基于Java的面向内存对象过滤、查询及统计分析的开源工具。它能够对内存中存储的集合对象,集合中的对象可以是Bean对象,数组对象、Map对象等各种对象,完成类似于数据库提供的查询及统计分析功能。它的语法结构类似于SQL,支持t...

2013-03-24 11:35:56 10710 1

转载 流处理框架Storm简介

转自:http://qing.weibo.com/2294942122/88ca09aa33002dsh.html EMC中国研究院 向东         提起Big Data,人们往往会提起大数据的4个V: Volume,Velocity , Variety 以及Value。这四个V从各...

2013-03-23 23:03:30 1853 0

原创 2012年终总结

1.2011年底~2012年初买了房子,终结了因眼光问题在北京十余年无房的尴尬。买房动机为了孩子。 2.孩子凭借工作居住证以及学区内的房产顺利上学,无惊无险。 3.参加五月份的系统分析师考试,顺利通过,成绩进入了全国前50. 4.爱人升职,加薪。 5.参加十一月份系统项目管理师考试,顺利通...

2013-01-29 13:12:28 1016 3

原创 设计中最困难的部分是决定设计什么

“设计中最困难的部分是决定设计什么”。-- 摘自巨匠Frederick P.Brooks的《设计原本》我绝对无条件同意这个观点。哪个影响我们决定设计什么的因素就是需求,而需求的获取绝对是一个需要不断去磨练的技巧。需求获取的准确性,全面性等都绝对会直接影响到项目的成败。(项目的失败

2011-07-27 23:31:55 762 0

原创 读项目百态随感

《项目百态》这本书林列了项目中的方方面面的内容。包括几个作者对公司、团队、个人;文化、管理、技能等各种项目行为的感悟和理解。本书看似想要效仿模式类的书来编写,但因技术之外的内容太多了,加上又是几个作者共同写的,所以在归纳和分类上显得比较零乱。但内容还是非常生动、有趣。其中有相当多的内容都与我碰到的...

2011-06-16 23:05:00 814 0

原创 重温“黑客”

<br />    最近在翻看保罗.格雷厄姆的《黑客与画家》一书,其中黑客的定义让我想到了十几年前我读到的一本书,一本对我现在有着深远意义的一本书。在那本书里所呈现的“黑客”的定义与这本书里的概念一致。我已经无法记起当时那本书的名字了。而关于“黑客”的定义,两者却是完全一致的,它们都将...

2011-05-27 22:56:00 558 0

提示
确定要删除当前文章?
取消 删除