- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 大数据江湖之即席查询与分析(下篇)--手把手教你搭建即席查询与分析Demo
上篇小弟分享了几个“即席查询与分析”的典型案例,引起了不少共鸣,好多小伙伴迫不及待地追问我们:说好的“手把手教你搭建即席查询与分析Demo”啥时候能出?说到就得做到,差啥不能差人品,本篇只分享技术干货,目的只有一个,就是让每一个伙伴都能根据本篇向导搭建出一个“即席查询与分析Demo”。 为了让各位伙伴能够尽快上手体验,所选案例就以上一篇中的“机动车缉查布控即席查询与分析”为例,上篇我们已经比较详尽的分析了用户需求,没好好听课的小伙伴赶紧把“大数据即席查询与分析(中篇)”再好好复习一下,这里不再赘
2017-02-25 17:35:11 3613
原创 大数据江湖之即席查询与分析(中篇)--即席查询与分析的典型场景
上篇提到了大数据做数据分析的三种最为典型计算模式:批处理(Batch),即席查询与分析(Ad-hoc),流计算(Stream);对于批处理和流计算,虽然小弟也略知一二,早在Hive还没出来之前,也是从一字一句的写MapReduce代码走过来的,还有后来作为JStorm的Committer,老东家阿里把JStorm贡献给了Apache基金会,也算是在这两个领域有所涉足,不过小弟是领教过一些大神的,这里就不献丑了,还是承接上篇,分享一下小弟对即席查询与分析(Ad-hoc)的理解,列举三个较为典型的项目案例,供各
2017-02-20 22:59:11 10089 2
原创 大数据江湖之即席查询与分析(上篇)--即席查询与分析的前世今生
如今,大数据领域新技术层出不穷,可谓百家争鸣,甚是红火。不乏有些玩家动辄搞出个大数据平台,可谓包罗万象,号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技,有能拿得出手的看家本领已然实属不易。小弟有幸从2010年投身于大数据,并先后就职于阿里和腾讯,见过世面之后,自知才疏学浅,仅专注于大数据即席查询与分析技术。在此将多年所学所做汇聚成文,留下“大数据江湖之即席查询与分析”三部曲,为大数据即席查询与分析的后来者所用。
2017-02-20 17:16:07 9144 1
原创 Spark在不同存储格式下的性能对比
笔者发现,很多同学在各种项目中尝试使用Spark,大多数同学最初开始尝试使用Spark的原因都很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark进行合理的调优,Spark作业的执行速度可能会很慢,甚至根本体会不到Spark作为一种快速大数据计算引擎的优势。 事实上,Spark系统的性
2017-08-16 11:03:06 3694 1
原创 关于Solr/ES,我们不得不知道的十件事
这里谈一下笔者多年使用Solr/ES的所总结出的Solr/ES十点不足:1、Solr/ES分词的不足之处对于邮箱、手机号、车牌号码、网址、IP地址、程序类名、含有字母与数字的组合之类的数据会匹配不完整,导致数据查不全,因分词导致漏查以及缺失数据,对于模糊检索有精确匹配要求的场景下,业务存在较大的风险。如何玩转Solr/ES,能够自定义拓展任意的分词类型,如词库分词,语义分词,拼音分词等
2017-07-05 15:32:39 8160 2
原创 一个高性能交互式查询与分析引擎的设计思路
这里就大数据生态中几种典型的方案,从数据规模,时效性,查询性能与并发,灵活性,运维,扩容迁移容灾等几个关键维度进行深度对比分析,来探讨构建实现一个高性能的交互式查询与分析引擎的思路。
2017-02-25 23:01:35 4760 2
Spark在不同存储格式下的性能对比
2017-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人