muyannian-CSDN博客

原创录信全栈数据库的核心实现原理之将索引创建在hdfs之上

信数据库设计目标是必须能够支撑巨大规模的数据。要想实现这一目标要求其底层存储必须基于分布式文件系统，而绝对不能基于本地文件。Hadoop作为大数据时代的一个标志产物，能否基于HDFS之上创建索引，数据是存储在本地硬盘还是存储在分布式文件系统，对于一个数据库系统有着划时代的意义，是一个区分传统数据库与大数据数据库的一个关键的标致。录信将索引创建在hdfs之上。1.使用本地文件系统的各种弊端。在传统数据库领域，如mysql、oracle、postgresql他们的一个共同特点就是将数据存储在本地，

2020-12-09 11:05:11 419

原创 YDB资源整理汇总

YDB介绍什么是延云YDB基于spark排序的一种更廉价的实现方案-附基于spark的性能测试大索引技术大数据的未来YDB技术原理YDB技术原理那些年我们在spark SQL上踩过的坑YDB跟Solr Cloud、ElasticSearch区别YDB安装部署YDB依赖的硬件环境详解YDB依赖的操作系统环境详解YDB依赖的软件环境详解YDB基于原版Ha

2017-03-12 18:26:46 824

原创 YDB,一种Spark快速数据分析替代方案

排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，每年巨头都会在排序上进行巨大的投入，

2017-03-12 15:23:22 3744

原创 spark、hadoop、storm、solr、es在车辆分析上的分析与比较

自2012年以来，公安部交通管理局在全国范围内推广了机动车缉查布控系统（简称卡口系统），通过整合共享各地车辆智能监测记录等信息资源，建立了横向联网、纵向贯通的全国机动车缉查布控系统，实现了大范围车辆缉查布控和预警拦截、车辆轨迹、交通流量分析研判、重点车辆布控、交通违法行为甄别查处及侦破涉车案件等应用。在侦破肇事逃逸案件、查处涉车违法行为、治安防控以及反恐维稳等方面发挥着重要作用。随着联网单位和

2017-03-12 14:06:00 7020

原创超越spark性能数百倍的性能测试

排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，每年巨头都会在排序上进行巨大的投入，

2017-03-12 08:26:34 1218

原创基于spark排序的一种更廉价的实现方案-附基于spark的性能测试

排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，每年巨头都会在排序

2017-03-07 10:38:07 1851

原创 hadoop中的排序新思路-附基于spark之上的性能测试

排序可以说是很多日志系统的硬指标（如按照时间逆序排序），如果一个大数据系统不能进行排序，基本上是这个系统属于不可用状态，排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark，还是impala,hive，总之排序是必不可少的，排序的性能测试也是必不可少的。有着计算奥运会之称的Sort Benchmark全球排序每年都会举行一次，每年巨头都会在排序

2017-03-07 10:29:17 969

原创大数据基础环境搭建的从spark到hadoop,从底层硬件到上层软件的一些必备注意事项

一、硬件环境硬件如何搭配，能做到比较高的性价比，不存在短板。合理的硬件搭配，对系统的稳定性也很关键。1.CPU不是核数越高越好，性价比才是关键。经常遇到很多的企业级客户，他们机器配置非常高，CPU有128 VCore，256G内存，但是只挂载了1块8T的SATA硬盘，千兆网卡。这样的机器配置比较适合计算密集型的业务，但是如果是IO密集型的业务的话，就会发

2017-03-06 18:03:57 2567

原创美国可以实现几乎对全球无死角的监控，这是可能的吗？

美国可以实现几乎对全球无死角的监控，这是可能的吗？在技术上是如何做到的？在中国有类似的技术么？这几天看了谍影重重5，感触很大。海瑟·李使用的追踪系统真的很强大，只要有一点蛛丝马迹暴力在外面，就会被这个痕迹追踪系统查询到。但是真的存在这样的系统么？这个痕迹追踪系统，总结起来有两大主要功能，查询是谁做的与查询谁在哪？事

2017-03-05 17:06:40 4600 2

原创《谍影重重5》黑科技之即席踪迹查询

美国可以实现几乎对全球无死角的监控，这是可能的吗？在技术上是如何做到的？在中国有类似的技术么？事实上，出于国家安全的最高利益考虑，通过收集特定人群的通话记录，位置信息，交易记录，网络行为记录，出行记录，聊天记录等等，并运用大数据、人工智能等技术对数据加以利用，是公共安全行业信息化发展的主要方向。为保障我国经济的持续快速发展，社会的安全稳定是基础条件。我

2017-03-05 13:38:23 928

原创《谍影重重5》中的黑科技

为保障我国经济的持续快速发展，社会的安全稳定是基础条件。我国正在投入大量资源，应用包括大数据技术在内的多种高新技术，在公共安全，社会维稳，反恐反爆，案件侦破等多个领域。事实上，出于国家安全的最高利益考虑，通过收集特定人群的通话记录，位置信息，交易记录，网络行为记录，出行记录，聊天记录等等，并运用大数据、人工智能等技术对数据加以利用，是公共安全行业信息化发展的主要方向。我们已

2017-03-05 12:28:59 959

原创《谍影重重5》中的黑科技

为保障我国经济的持续快速发展，社会的安全稳定是基础条件。我国正在投入大量资源，应用包括大数据技术在内的多种高新技术，在公共安全，社会维稳，反恐反爆，案件侦破等多个领域。事实上，出于国家安全的最高利益考虑，通过收集特定人群的通话记录，位置信息，交易记录，网络行为记录，出行记录，聊天记录等等，并运用大数据、人工智能等技术对数据加以利用，是公共安全行业信息化发展的主要方向。我们已经看到国内的一些部门和地

2017-03-05 12:19:45 1180

原创大数据江湖之即席查询与分析（下篇）--手把手教你搭建即席查询与分析Demo

上篇小弟分享了几个“即席查询与分析”的典型案例，引起了不少共鸣，好多小伙伴迫不及待地追问我们：说好的“手把手教你搭建即席查询与分析Demo”啥时候能出？说到就得做到，差啥不能差人品，本篇只分享技术干货，目的只有一个，就是让每一个伙伴都能根据本篇向导搭建出一个“即席查询与分析Demo”。为了让各位伙伴能够尽快上手体验，所选案例就以上一篇中的“机动车缉查布控即席查询与分析”为例，上

2017-03-05 12:07:06 5580

原创大数据江湖之即席查询与分析（中篇）--即席查询与分析的典型场景

上篇提到了大数据做数据分析的三种最为典型计算模式：批处理（Batch），即席查询与分析（Ad-hoc），流计算（Stream）；对于批处理和流计算，虽然小弟也略知一二，早在Hive还没出来之前，也是从一字一句的写MapReduce代码走过来的，还有后来作为JStorm的Committer，老东家阿里把JStorm贡献给了Apache基金会，也算是在这两个领域有所涉足，不过小弟是领教过一些大神的，这

2017-03-05 12:05:46 2941 1

原创大数据江湖之即席查询与分析（上篇）--即席查询与分析的前世今生

如今，大数据领域新技术层出不穷，可谓百家争鸣，甚是红火。不乏有些玩家动辄搞出个大数据平台，可谓包罗万象，号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技，有能拿得出手的看家本领已然实属不易。小弟有幸从2010年投身于大数据，并先后就职于阿里和腾讯，见过世面之后，自知才疏学浅，仅专注于大数据即席查询与分析技术。在此将多年所学所做汇聚成文，留下“大数据江湖之即席查询与分析”三部曲，为大数据即席

2017-03-05 12:04:43 2007

原创 YDB函数

第八章YDB函数一、如何区分Spark 的SQL解析层与YDB的SQL解析层对于YDB系统来说，我们将索引与Spark集成在了一起，但是YDB层的SQL解析与SPARK 层的SQL解析是分别处理，大家可以注意下架构图里面的那两个箭头，注意下Spark层与ydb层SQL解析的位置。1.从架构角度2.从SQL角度看二、YDB的S

2017-02-25 21:02:39 1271

原创基于原版Hadoop的YDB部署

YDB依赖环境准备一、硬件环境硬件如何搭配，能做到比较高的性价比，不存在短板。合理的硬件搭配，对系统的稳定性也很关键。1.CPU不是核数越高越好，性价比才是关键。经常遇到很多的企业级客户，他们机器配置非常高，CPU有128 VCore，256G内存，但是只挂载了1块8T的SATA硬盘，千兆网卡。这样的机器配置比较适合计算密集型的业务，但是如果是I

2017-02-25 21:00:46 1202

原创延云YDB版本v1.0.7-beta版本上线

本次新增与改动如下：1，支持多个merger servrer为了应对集群规模越来越大造成的单节点的merger server压力过大,可以通过 ydb.request.split: 4参数，随机选择一定数量的worker担任merger server.2，ydb on spark支持多集群 ydb on spark可以支持同一个表，跨多个ydb集群查询，用以应对单个ydb

2016-01-14 20:57:05 2402

原创 Hermes与开源的Solr、ElasticSearch的不同

Hermes与开源的Solr、ElasticSearch的不同谈到Hermes的索引技术，相信很多同学都会想到Solr、ElasticSearch。Solr、ElasticSearch在真可谓是大名鼎鼎，是两个顶级项目，最近有些同学经常问我，“开源世界有Solr、ElasticSearch为什么还要使用Hermes?” 在回答这个问题之前，大家可以

2014-12-18 15:40:48 3138 2

原创大索引技术，大数据的未来

不管你信也好，不信也好，大数据时代真的来临了，随着Hadoop技术的普及，其生态圈发展的越来越壮大，Hive、Hbase、Spark、storm等的一系列新名词不断的涌现在我们的眼里。似乎nosql一夜间，攻陷了全部的大数据阵地。那么传统的关系型数据库的一些思路，真的没有用武之地了么？真的就一去不复返了么？当大数据技术大旗在每个山头摇摆的时候，我们躲在角落里还能做些什么？“索引”，没错，数据库

2014-12-17 11:43:13 2355

原创 Mdrill项目在lucene的改进上的10点心得

word版本地址：https://github.com/alibaba/mdrill/blob/master/doc/Mdrill%E9%A1%B9%E7%9B%AE%E5%9C%A8lucene%E7%9A%84%E6%94%B9%E8%BF%9B%E4%B8%8A%E7%9A%8410%E7%82%B9%E5%BF%83%E5%BE%97.docx?raw=true

2014-06-12 17:23:42 4507

原创基于mdrill的大数据分析

数据越来越多，传统的关系型数据库支撑不了，分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量，如何才能高效的分析？mdrill是由阿里妈妈开源的一套数据的软件，针对TB级数据量，能够仅用10台机器，达到秒级响应，数据能实时导入,可以对任意的维度进行组合与过滤。 mdrill作为数据在线分析处理软件，可以在几秒到几十秒的时间，分析百亿级别的任意组合维度的数据。

2014-02-18 12:44:11 9294

原创 adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦

adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦1：mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。2：mdrill旨在帮助用户在几秒到几十秒的时间内，分析百亿级别的任意维度组合的数据。3：mdrill是一个分布式的在线分析查询系统，基于hadoop,lucene,solr,jstorm等开源系统作为实现，基于SQL的查询语法。 mdrill是一个能够对大量数据进行分布式处理的软件框架。mdrill是快速的高性能的，他的底层因使用了索引、列式存储、以及

2013-07-24 13:45:38 5223

mathout in action (pdf)

Hadoop_MapReduce教程.doc

C语言函数大全，查询手册

空空如也