hadoop技术专栏
文章平均质量分 78
jiezhu2007
这个作者很懒,什么都没留下…
展开
-
Docker和hadoop
Docker Docker很热,怎么形容?感觉开源除了spark技术,就是docker了,甚至把Go语言也带火了,把Go在TIOBE的排名从百名外带入主流语言的行列。Docker快成救世主了,这么牛逼的技术,docker和hadoop碰撞出什么火花来呢,是不是得赶紧用上呢?就不介绍具体什么是docker了,不是一门全新的技术,是基于LXC的高级容器引擎,从linux内核发展出来...2017-06-27 21:17:18 · 597 阅读 · 0 评论 -
一套数据,多种引擎(impala/Hive/kylin)
以前写过一篇文档讨论MPP DB的发展,《MPP DB 是大数据实时分析系统未来的选择吗?》,当时主要是想讨论下Greenplum数据库是否合适做数据存储,以及实时查询。文章我主要提的MPP DB短板是扩展性和对并发的支持,从目前Pivotal公司主推的HAWK,已经可以清楚的看到,业界主流的思路是SQL onhadoop,用传统引擎的高性能加上hadoop 存储的鲁棒性,来构建大数据实...2014-11-07 21:24:01 · 1054 阅读 · 0 评论 -
博客导读
2016-11-06 朱洁 大数据和云计算技术闲来无事,简单整理下博客,方便大家阅读。具体的不解释,自己看。 一、胡扯乱聊 一万小时定律写给自己的2014年中回顾2015年完成的第一本英文原著书写给自己定2015第二次机器革命《大数据架构详解》答疑(一)为什么写《大数据架构详解》这本书书籍推荐:《大数据架构详解》,京东已...2016-11-12 10:21:50 · 170 阅读 · 0 评论 -
大数据仓库-kudu
数据仓库里面存储引擎是非常重要的,存储引擎的好坏,基本决定了整个数仓的基础。 kudu目标cloudera公司最近发布了一个kudu存储引擎。按照cloudera的想法,kudu的出现是为了解决,hbase,parquet不能兼顾分析和更新的需求,所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用。cloudera 的设计目标是:(http://bl...2015-11-21 16:56:56 · 869 阅读 · 0 评论 -
为什么写《大数据架构详解》这本书
花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书《大数据架构详解:从数据获取到深度学习》。整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了。 回想这我500天,我常问自己两个问题: 1)我问自己为什么选择去写一本大数据技术的书,是什么让自己坚持?我感觉可能更多的原因是实践大数据架构和技术这么多年,对技术的理解到一定的程度,...2016-10-22 12:36:07 · 313 阅读 · 0 评论 -
非易失性存储一览
2016-10-16 朱洁 大数据和云计算技术RAM:随机存取存储器(random access memory,RAM)又称作“随机存储器”,是与CPU直接交换数据的内部存储器,也叫主存(内存)。它可以随时读写,而且速度很快,通常作为操作系统或其他正在运行中的程序的临时数据存储媒介。 内存速度非常快,但是同时也有一个特性就是易失性,当电源关闭时RAM不能保留数据。...2016-10-16 16:36:31 · 2489 阅读 · 1 评论 -
深度学习的本质探究??
原创 2016-10-07 朱洁 大数据和云计算技术1、人工智能浪潮又起 标志型事件,阿尔法围棋(AlphaGo)战胜李世石。 alphago是一款围棋人工智能程序,由谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。2015年10月阿尔法围...2016-10-16 16:33:20 · 743 阅读 · 0 评论 -
大数据数据仓库-场景
大数据仓库-场景 2015-10-24 朱洁 hadoop技术学习传统OLTP/OLAP之分数据仓库里面有OLTP/OLAP之分,OLTP是传统关系型数据库的主要应用,其主要面向基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 大数据场景下的同与不同 1、大数据时代,...2015-10-24 20:08:57 · 502 阅读 · 0 评论 -
实时分析系统(HIVE/HBASE/IMPALA)浅析
1. 什么是实时分析(在线查询)系统?大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点:a. 时延低(秒级别)。b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。c. 查询范围大(通常查询表记录在几十亿级别)。d. 返回结果数小(几十条甚至几千条)。e. 并发...原创 2014-04-27 22:15:20 · 1251 阅读 · 0 评论 -
大数据数据仓库-概念
大数据数据仓库—概念 2015-10-18 朱洁 hadoop技术学习 大数据经过反复炒作之后,慢慢的降温下来。大家不再大谈几个v了,落地到企业会发现,大部分场景还是传统的数据仓库的替换。今天梳理下数据仓库的使用场景,以及需要的技术。 1,先谈下数据仓库准确的概念是什么?数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提...2015-10-18 14:44:51 · 230 阅读 · 0 评论 -
mesa介绍:google 近实时数据仓库系统
Google最近发表了一篇有关大数据系统的论文,讨论了一个名为Mesa的数据仓库系统,它能处理近实时数据,即使在整个数据中心断线后还能正常工作。Mesa是一个高度可扩展的分析数据仓库系统,能存储与Google广告业务有关的关键测量数据。Mesa能满足复杂和具有挑战性的用户与系统需求,包括近实时数据提取和查询,同时在海量数据和查询量中保持高可用性、可靠性、容错率和扩展性。Mesa每秒能处理数...2014-11-07 21:32:17 · 502 阅读 · 0 评论 -
搜索简史
搜索简史2016-11-12 朱洁 大数据和云计算技术现在的同学很难想象没有搜索引擎的日子,国内的百度,国外的Google,Bing基本成为互联网的唯一入口,上网的第一件事是搜索一下。 回想整个互联网,关于信息获取,可以分为这么几个阶段: 1)门户网站 20世纪末的时候大家还玩的是门户网站。全世界出名的网站就那么几个,国外Yahoo,国内S...原创 2016-12-03 16:34:16 · 218 阅读 · 0 评论 -
元数据概念
元数据概念2016-11-17 刘耀铭 大数据和云计算技术刘耀铭同学元数据系列作品的第一篇,大家支持!其他有兴趣的同学也可以联系我一起学习,进步!具体内容参考:怎么快速提高技术? 其他元数据相关系列文章:基于元数据驱动的ETLHive 元数据表结构详解 1、 元数据是描述其他数据的数据(data about other data)...2016-12-03 16:35:46 · 224 阅读 · 0 评论 -
Apache Eagle:实时安全监控方案
原创 2016-03-27 朱洁 hadoop技术学习Eagle是eBay开源的一个分布式实时安全监控方案。通过离线训练模型集合实时流引擎监控,能立即监测出对敏感数据的访问或恶意的操作,并立即采取应对的措施。下图是Eagle的架构。 Eagle的数据行为监控方案可用于如下几类典型场景:监控Hadoop中的数据访问流量检测非法入侵和违反安...2016-03-27 16:00:07 · 606 阅读 · 0 评论 -
AWS Redshift安全策略解读
2016-03-19 朱洁 Redshift是aws一个mpp数据库,采用列式存储,性能做的还不错。今天不打算介绍Redshift本身,更多的信息,可以到aws到官网看看,https://aws.amazon.com/cn/redshift/?nc2=h_l3_al。 本文想分享下Redshift是怎么保证安全的,Redshift的安全措施主要有加密,vpc,审计...2016-03-20 14:39:32 · 419 阅读 · 0 评论 -
同态加密技术
2016-03-12 朱洁 hadoop技术学习最近领导安排研究下大数据的安全,计算机安全是个系统工程,分很多层面:1)硬件安全2)应用软件安全3)操作系统安全4)数据库系统安全5)网络安全技术 涉及到具体的技术又有1)密码技术2)计算机病毒&防范3)防火墙技术4)黑客的攻击和防范等等。 大数据技术除了传统的...2016-03-13 19:57:27 · 1101 阅读 · 0 评论 -
腾讯实时检索分析平台hermes介绍
腾讯大数据最近做了几件事,上线了一个官方网站http://data.qq.com/,将TDW(腾讯大数据库仓库)开源了,封闭的企鹅难得开放了一回。大数据网站上有一些资料,我看到一个叫Hermes爱马仕的系统挺有意思的,今天介绍下。关于实时分析系统我前面写个几篇文章分析,包括《实时分析系统(HIVE/HBASE/IMPALA)浅析》《MPP DB 是 大数据实时分析系统 未来的选择吗?》《一...2014-12-13 16:12:52 · 810 阅读 · 0 评论 -
滴滴背后的大数据应用
2017-01-07 朱洁 大数据和云计算技术前言:这是一篇大数据应用文章,不涉及高深技术,适合大数据入门的同学了解大数据能干什么,所有数据/消息全部来源公开网络。 先聊个最近的消息,近年来发展最快的公司滴滴传言裁员,消息真假难辨。网络传言:“滴滴出行可能正在进行成立4年多以来最大规模的一次裁员。有多个信息源对36氪称,最近滴滴正在裁员;甚至有知情人士告知36氪...2017-01-08 15:54:29 · 4162 阅读 · 0 评论 -
一套数据,多种引擎续---两种数据格式(Parquet/ORCfile)浅析
最近主要在研究大数典型应用adhoc query,要实现秒级的adhoc query,通常有3种思路:1、用搜索技术,将查询都建立索引,然后用搜索技术来实现。这种技术目前主要限制是索引建立和存储成本高,索引建立不及时,例如支付宝的higo。2、实时计算,对不能指定维度的查询,理论上认为是实时计算,每个列上建立函数索引,这种典型的代表是mesa。关于mesa,前面我有篇简单的介绍性文章《...原创 2014-11-15 19:30:39 · 470 阅读 · 0 评论 -
大数据仓库-增量更新
2015-12-03 朱洁 hadoop技术学习现在是国内凌晨3点,为了抵挡睡意,还是写写技术博客。今天和大家讨论下大数据仓库中的更新技术。当前很多大数据技术,如HDFS最早设定的是数据不更新,只增量叠加。传统数据仓库(Greenplum,treadata,oracle RAC)通常碰到两个问题:1、更新的throughput不高。主要影响原因有两点,锁的原因,...2015-12-19 09:55:25 · 498 阅读 · 0 评论 -
元数据的作用
元数据的作用 2016-11-23 刘耀铭 大数据和云计算技术刘耀铭同学元数据系列作品的第二篇,大家支持!其他有兴趣的同学也可以联系我一起学习,进步!具体内容参考:怎么快速提高技术? 其他元数据相关系列文章:元数据概念基于元数据驱动的ETLHive 元数据表结构详解 上一遍我们了解了什么是元数据,即元数据的定义,我们知道了元数据是对数...2016-12-04 18:17:11 · 1252 阅读 · 0 评论 -
喜大普奔,《大数据架构详解》一书 登陆 当当,京东热卖榜
2016-11-27 朱洁 大数据和云计算技术最近加班太多,“江郎才尽了”,这周不想写博客了,休息下。 讲点高兴的事情,我的新书《大数据架构详解》登陆当当,京东热卖榜。 1、先看当当: 计算机类,新书热卖榜 第七名! 2、京东 大数据和云计算类 热卖榜 第14位(不止新书,统计所有的,刚上架一个月,这个还行。 最后,感谢各...2016-12-04 18:03:47 · 176 阅读 · 0 评论 -
Cloud_Native是什么
Cloud_Native概念最近比较火,因此研究下到底讲的是什么含义。 Cloud_Native从概念上讲核心说的是传统的应用部署在数据中心上的架构不适合云化的环境,要充分利用云基础设施的可编程性和扩展性,又要规避云基础设施的不可靠,cloud_native核心改变是fit app to infra,而不是fit infra to app。 什么样的应用才算是...2015-10-18 11:20:04 · 335 阅读 · 0 评论 -
SQL on Hadoop技术分析(一)
2016-07-12 王森 hadoop技术学习 背景Hadoop的诞生是划时代的数据变革,但关系型数据库时代的存留也为Hadoop真正占领数据库领域埋下了许多的障碍。对SQL(尤其是PL/SQL)的支持一直是Hadoop大数据平台在替代旧数据时代亟待解决的问题。Hadoop对SQL数据库的支持度一直是企业用户最关心的诉求点之一,也是他们选择的Hadoop平台的重...2016-07-28 13:18:34 · 207 阅读 · 0 评论 -
netflix大数据架构介绍
国内的技术人员知道netflix这家公司的可能并不多。Netflix是一家美国公司,在美国、加拿大提供互联网随选流媒体播放,定制DVD、蓝光光碟在线出租业务。该公司成立于1997年,总部位于加利福尼亚州洛斯盖图,1999年开始订阅服务。2009年,该公司可提供多达10万部DVD电影,并有1千万的订户。2007年2月25日,Netflix宣布已经售出第10亿份DVD。在技术圈子里面让Netf...2014-12-21 12:34:23 · 1344 阅读 · 0 评论 -
hadoop发行商介绍:Cloudera
在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(M...2014-05-25 13:15:54 · 324 阅读 · 0 评论 -
管中窥豹之淘宝大数据平台
淘宝这两年比较火,马云为了淘宝整体上市卖个好价钱,吹了不少泡泡。但是从对大数据技术这块来看,个人以为目前淘宝是做的比较好的。淘宝为什么搞得好,还是因为马云本身较早的把数据放到了全公司的战略的地位,所以为了搞好大数据,网罗了不少人才。现在搞数据分析相关技术的同学,如果能拿到的淘宝的OFFER的话,给的都还是比较的高。下面来简单看下淘宝的技术架构:(淘宝技术也在不停的发展,现在公开的资料可能有...2014-05-21 11:05:47 · 263 阅读 · 0 评论 -
hadoop发行商介绍:Hortonworks
Hadoop是开源的,但是企业版本其实是由几家大的公司把持,这个就类似linux的redhat和suse一样,提供hadoop发型版本的公司主要的有Hortonworks,Cloudera,mapR。今天简单介绍Hortonworks:先了解下Hortonworks的起源,Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月联合创建,出身于名门Ya...2014-05-19 13:09:30 · 700 阅读 · 0 评论 -
管中窥豹:腾讯大数据平台
腾讯有中国最全的社交数据,面对一个数据金矿,腾讯不可能坐视不理,腾讯基于hadoop研究了自己的大数据平台,最大的一个集群规模超过5600台。本文简单分析下腾讯的大数据平台的技术特点。下面这个图是腾讯的技术架构图: 整个系统相对比较简单,主要有以下几大组件组成。TDBank(Tencent Data Bank):数据实时收集与分发平台。将数据处理系统同数据源解耦,基于“发布-订...2014-05-18 08:32:06 · 365 阅读 · 0 评论 -
大数据分析处理平台的调度应该具备什么能力?
本文想讨论下大数据分析处理平台的调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。谈调度之前,先说说大数据分析处理平台的定义:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、可视呈现等特点。一般来说,大数据分析处理平台有以下几个显著特点:规模大,集群化。百度,腾讯,阿里...2014-05-11 11:29:49 · 547 阅读 · 0 评论 -
MPP DB 是 大数据实时分析系统 未来的选择吗?
大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很...2014-05-10 11:50:56 · 758 阅读 · 0 评论 -
spark overview
1、 Resilient Distributed Datasets(RDDs)Immutable,partitioned collections of objects不可变,对象分区Created through parallel transformations(map,filter,groupBy,join…) on data in stable storage ...原创 2013-07-28 19:24:58 · 102 阅读 · 0 评论 -
chronos:数据中心的任务调度器(job scheduler)
1、Chronos来源Chronos现在是一家初创公司 Mesosphere在维护,该公司的联合创始人是前Airbnb的工程师Florian Leibert(也曾在Twitter工作过)和Tobias Knaup。 Chronos在Airbnb是用来替代cron,是一个跑在mesos上的分布式的,可靠的调度scheduler。Mesosphere公司相关信息大家可以到以下链接看看:...原创 2014-05-06 20:52:51 · 1064 阅读 · 0 评论 -
Automatic Management of Data and Computation in Datacenters
最近在研究数据中心的数据管理和性能优化,看了一篇2010的论文Nectar:Automatic Management of Data and Computation in Datacenters,还是有一定的启发的,简要介绍给大家。详细的建议大家download论文下来看下。Nectar核心思路有两个:1、大部分数据计算存储之后是无效的,根据论文中研究统计结果,有50%的文件在过去的25...2015-01-24 12:27:22 · 128 阅读 · 0 评论 -
mesos frameworks开发指南
1 frameworks开发指南这个文档中,我们称Mesos的应用为”framworks”。In this document we refer to Mesos applications as “frameworks”.Mesos支持java,python,c++。可以从MESOS_HOME/src/examples/找对应的例子,搞明白framework的scheduler和exe...2014-03-22 21:03:35 · 246 阅读 · 0 评论 -
mesos集群安装
1、说明Mesos是一个集群资源管理的软件,利用它可以实现多种并行计算框架对于同一个集群资源的共享和利用。从而提高资源的使用效率,节约成本!本文是参考网上一位兄弟的安装,结合自己的环境,整理的安装指导: 2、软件准备环境: 有三台机器IP地址分别为: 75,76,79Mesos版本mesos-0.17.0.tar.gz三台机器系统版本: Red Hat ...2014-03-26 20:21:11 · 143 阅读 · 0 评论 -
快速理解docker
技术源头简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案,Docker container和普通的虚拟机Image相比, 最大的区别是它并不包含操作系统内核。因此非常轻量。 普通虚拟机将整个操作系统运行在虚拟的硬件平台上, 进而提供完整的运行环境供应用程序运行, 而Docker则直接在宿主平台上加载运行应用程...2015-08-15 16:03:17 · 145 阅读 · 0 评论 -
构想下一代优化器MBO:MachineLearning Based Optimizer
2016-06-10 朱洁 hadoop技术学习 熟悉ORACLE数据库的人,对RBO/CBO肯定很熟。 Rule Based Optimizer(RBO)基于规则Cost Based Optimizer(CBO)基于成本,或者讲统计信息 ORACLE 提供了CBO、RBO两种SQL优化器。CBO在ORACLE7 引入,但在ORACLE8i 中才成熟...2016-06-18 18:17:07 · 309 阅读 · 0 评论 -
spark 2.0主要特性预览
2016-05-29 朱洁 hadoop技术学习 spark 2.0相比老版本变化很大,已经发布了预览版本。原始的英文版databricks的博客:https://databricks.com/blog/2016/05/11/apache-spark-2-0-technical-preview-easier-faster-and-smarter.html 变...2016-05-29 14:32:31 · 159 阅读 · 0 评论 -
高速数据总线kafka分析
1. Kafka的作用在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。有没有一个系统可以同时搞定在线应用(消息)和离线应用(数据文件,日志)?这就需要kafka。Kafka可以起到两个作用:1、降低系统组网复杂度。2、降低编程复杂度,各个子系统不在是相互协商接口,各个子系统类似插口插在插座上,Kafka承担...原创 2014-04-25 20:55:09 · 999 阅读 · 0 评论