一步到位,用SQL检索ElasticSearch

     在介绍MOQL的上一篇文章《SQL to ElasticSearch DSL》里,提到了如何将SQL语法转换为ElasticSearch DSL的用法。这期间还出现乌龙事件,就是最新的代码并未提交到GitHub上,功能用不了,如今已经连同本次支持的内容全部更新提交。    上次介绍,MO...

2018-06-09 23:17:35

阅读数 482

评论数 1

SQL to ElasticSearch DSL

        众所周知ElasticSearch目前是一个应用最为广泛的分布式搜索与分析引擎,它的功能强大,能够已很高的性能访问大规模数据。它拥有强大的查询分析语法,能够完成模糊查询、精准查询及聚集计算等诸多功能的表达。但对于那些用惯了SQL语言的数据分析人员来说,掌握ElasticSearch...

2018-04-20 22:39:42

阅读数 1892

评论数 0

MOQL-复杂事件处理(CEP)

MOQL做为一款基于Java的面向内存对象的过滤、查询及统计分析工具,有非常丰富的应用场景。复杂事件处理就是其应用场景之一。MOQL工程在迁移到GitHub之后,进行了一次大的调整。整个项目被拆分成了moql-core和moql-cep两个模块。其中moql-core即原来的moql主工程,而mo...

2017-02-06 20:03:04

阅读数 1468

评论数 0

时间定位表达式-用于时间的加、减调整

在笔者开发的应用中,经常会遇到用户对数据有按照时间进行查询或监视的需求。用户对此类需求往往是希望可以输入一个已当前时间为准,向前回溯或向后延展一定时间的一个时间段。时间段可以是一天、一周、一个月,也可以是十天、一百天、十周等。为可以灵活满足此类需求,笔者写了一个专门做时间定位运算的表达式--“时间...

2015-07-05 00:03:37

阅读数 485

评论数 1

Nmap 空闲扫描

转载自:http://tcshare.org/nmap%E7%A9%BA%E9%97%B2%E6%89%AB%E6%8F%8F/ Nmap TCP 空闲扫描(-sI)       1998年,安全研究员Antirez (本书中hping2工具的作者)在Bugtraq邮件列表上,...

2015-01-25 23:13:43

阅读数 1318

评论数 0

技术团队的聚散离合--案例故事,献给曾经的团队

在点了“发送”按钮,发出了一小时后召开部门关于某部委数据分析平台项目的技术研讨会的邮件后,孙同望着屏幕,陷入沉思。思绪回到了2013年的2月份…… 职业困境,孙同无奈转型        春节刚过,上班第二天的一大早,孙同就被张欣副总通知到办公室来一下。他估计是跟自己昨天同李总的对话有关。就在昨天,...

2015-01-19 20:35:02

阅读数 943

评论数 2

RDD:基于内存的集群计算容错抽象

原文参见:http://www.iteblog.com/archives/1188 摘要   本文提出了分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开...

2014-11-25 23:18:06

阅读数 747

评论数 0

如何在Hadoop2上远程调试MapReduce

1.单机安装Hadoop2.x。 2.修改mapper-site.xml配置 EntityMap entityMap = new EntityMapImpl(); entityMap.putEntity("num", 12); entityMap.p...

2014-11-18 23:10:59

阅读数 1133

评论数 0

macos下如何配置ssh无密码登录

macos下配置ssh无密码登录的过程与linux下配置ssh无密码deng

2014-07-10 00:08:29

阅读数 854

评论数 0

读“产品经理那些事儿”有感

《产品经理那些事儿》的作者以自己s

2014-05-22 23:27:06

阅读数 724

评论数 0

MOQL--面向流的统计过滤技术

坦白讲在实现了moql以后,总想把它适用的范围写出来,却发现总也表达不清楚。原本写这个开源项目的初衷是因为在自己开发的产品中,会实时的,不断的收集各类数据。对于这些数据会对它们进行格式化、映射等实时的处理,也会有对数据进行过滤及统计分析的需求,最后还要将数据入库。对于数据的过滤与统计需求,同行都是...

2013-12-08 00:04:06

阅读数 785

评论数 0

备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具

SPSS、RapidMiner、KNIME以及Kettle四款工具都可以用来进行数据分析,只是彼此有各自的侧重点和有劣势。它们都可以逐步的定义数据分析过程,也同样都可以对数据进行ETL处理。笔者从自己关心的角度简单对比以上四款数据分析工具。        SPSS不用多说,一款成功的商业数据分析软...

2013-08-02 16:31:52

阅读数 3565

评论数 0

方差(Variance)和标准差(Standard Deviation)

转自:http://book.51cto.com/art/201004/193276.htm 方差是总体所有变量值与其算术平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。   ...

2013-07-27 17:43:39

阅读数 5313

评论数 0

峰度(Kurtosis)和偏度(Skewness)

转自:http://book.51cto.com/art/201004/193277.htm 峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰...

2013-07-27 17:41:36

阅读数 4781

评论数 0

四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles

转自:http://book.51cto.com/art/201004/193278.htm 四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三...

2013-07-27 17:40:05

阅读数 11417

评论数 0

全距(Range)

转自:http://book.51cto.com/art/201004/193275.htm 全距,又称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对差,借以表明总体标志值最大可能的差异范围。全距越长,说明数据越离散;反之,全距越小,说明数据越集中。 用符号...

2013-07-27 00:01:26

阅读数 1247

评论数 0

众数(Mode)

转自:http://book.51cto.com/art/201004/193274.htm 众数是指总体数据中出现次数最多的变量,用Mode表示。它同样不受数据极端值的影响,从而在一定程度上提高了平均水平的代表性。例如,制衣厂可以根据消费者所需服装尺码的众数来安排生产。此外,如果众数的值出...

2013-07-26 23:59:47

阅读数 1085

评论数 0

均值(Mean)和均值标准误差(S.E. Mean)

均值(平均数、平均值)表示的是某个变量所有取值的集中趋势或平均水平。例如,某班学生数学考试的平均成绩、公司员工的平均收入、某年级学生的平均身高、某高校高招录取平均分等。 平均数有总体平均数和样本平均数之分。 总体平均数:若一组数据X1,X2,……,XN代表一个大小为N的有限总体,则其总体平均数...

2013-07-26 23:55:23

阅读数 7514

评论数 0

中位数(Median)

转自:http://book.51cto.com/art/201004/193273.htm 中位数是将总体数据的各个数值按大小顺序排列,居于中间位置的变量,用Median表示。中位数将所有的数据等分成两半,中位数两端的数据个数相同,因此它也被称为二分位数。中位数的确定,仅仅取决于它在数...

2013-07-26 23:45:22

阅读数 890

评论数 0

moment, 一阶矩,二阶矩, 随机变量

在物理中,有力矩(moment of force)= F*L (力* 力臂) 在概率统计中,有一阶矩,二阶矩, 三阶矩,四阶矩。 不严格的讲,这个”矩“是用来描述  一个点集合的形状。比如,一维上的中点,二维上的一个椭圆,或是用来描述距离 中点(或 最高点)偏离情况。 最常见的用法, ...

2013-07-26 23:31:05

阅读数 7391

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭