vv8086-CSDN博客

原创大数据江湖之即席查询与分析（下篇）--手把手教你搭建即席查询与分析Demo

上篇小弟分享了几个“即席查询与分析”的典型案例，引起了不少共鸣，好多小伙伴迫不及待地追问我们：说好的“手把手教你搭建即席查询与分析Demo”啥时候能出？说到就得做到，差啥不能差人品，本篇只分享技术干货，目的只有一个，就是让每一个伙伴都能根据本篇向导搭建出一个“即席查询与分析Demo”。为了让各位伙伴能够尽快上手体验，所选案例就以上一篇中的“机动车缉查布控即席查询与分析”为例，上篇我们已经比较详尽的分析了用户需求，没好好听课的小伙伴赶紧把“大数据即席查询与分析（中篇）”再好好复习一下，这里不再赘

2017-02-25 17:35:11 3613

原创大数据江湖之即席查询与分析（中篇）--即席查询与分析的典型场景

上篇提到了大数据做数据分析的三种最为典型计算模式：批处理（Batch），即席查询与分析（Ad-hoc），流计算（Stream）；对于批处理和流计算，虽然小弟也略知一二，早在Hive还没出来之前，也是从一字一句的写MapReduce代码走过来的，还有后来作为JStorm的Committer，老东家阿里把JStorm贡献给了Apache基金会，也算是在这两个领域有所涉足，不过小弟是领教过一些大神的，这里就不献丑了，还是承接上篇，分享一下小弟对即席查询与分析（Ad-hoc）的理解，列举三个较为典型的项目案例，供各

2017-02-20 22:59:11 10089 2

原创大数据江湖之即席查询与分析（上篇）--即席查询与分析的前世今生

如今，大数据领域新技术层出不穷，可谓百家争鸣，甚是红火。不乏有些玩家动辄搞出个大数据平台，可谓包罗万象，号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技，有能拿得出手的看家本领已然实属不易。小弟有幸从2010年投身于大数据，并先后就职于阿里和腾讯，见过世面之后，自知才疏学浅，仅专注于大数据即席查询与分析技术。在此将多年所学所做汇聚成文，留下“大数据江湖之即席查询与分析”三部曲，为大数据即席查询与分析的后来者所用。

2017-02-20 17:16:07 9144 1

原创 Spark在不同存储格式下的性能对比

2017-08-16 11:03:06 3694 1

原创关于Solr/ES，我们不得不知道的十件事

这里谈一下笔者多年使用Solr/ES的所总结出的Solr/ES十点不足：1、Solr/ES分词的不足之处对于邮箱、手机号、车牌号码、网址、IP地址、程序类名、含有字母与数字的组合之类的数据会匹配不完整，导致数据查不全，因分词导致漏查以及缺失数据，对于模糊检索有精确匹配要求的场景下，业务存在较大的风险。如何玩转Solr/ES，能够自定义拓展任意的分词类型，如词库分词，语义分词，拼音分词等

2017-07-05 15:32:39 8160 2

原创一个高性能交互式查询与分析引擎的设计思路

这里就大数据生态中几种典型的方案，从数据规模，时效性，查询性能与并发，灵活性，运维，扩容迁移容灾等几个关键维度进行深度对比分析，来探讨构建实现一个高性能的交互式查询与分析引擎的思路。

2017-02-25 23:01:35 4760 2

Spark在不同存储格式下的性能对比

笔者发现，很多同学在各种项目中尝试使用Spark，大多数同学最初开始尝试使用Spark的原因都很简单，主要就是为了让大数据计算作业的执行速度更快、性能更高。然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark进行合理的调优，Spark作业的执行速度可能会很慢，甚至根本体会不到Spark作为一种快速大数据计算引擎的优势。事实上，Spark系统的性能调优是一个很复杂的过程，需要对Spark以及Hadoop有足够的知识储备，从硬件、操作系统、HDFS、数据存储格式、Spark等多个层面都会对性能产生很大的影响，显然不是调节几个参数就可以搞的定的。本文测试的目的是用来对比 Spark 三种存储格式TEXT、PARQUET、YDB的在性能差异。

2017-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大数据江湖之即席查询与分析（下篇）--手把手教你搭建即席查询与分析Demo

原创 大数据江湖之即席查询与分析（中篇）--即席查询与分析的典型场景

原创 大数据江湖之即席查询与分析（上篇）--即席查询与分析的前世今生