大数据
PlayGrrrrr
文武双全
展开
-
Hadoop、Spark、HBase与Redis的适用性讨论
问题导读:1.你认为Hadoop适用什么场景?2.Spark适用于什么场景?3.HBase与 Redis各有什么特点?最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Had转载 2017-06-05 16:19:35 · 434 阅读 · 0 评论 -
ES与传统数据库的比较
ES(ElasticSearch)是一款分布式全文检索框架,底层基于基于Lucene实现。ES与传统数据的区别主要有: 1.结构名称不同一个ES集群可以包含多个索引(数据库),每个索引又包含了很多类型(表),类型中包含了很多文档(行),每个文档使用 JSON 格式存储数据,包含了很多字段(列)。关系型数据库数据库表行列转载 2018-01-08 22:47:55 · 56268 阅读 · 1 评论 -
Storm与Spark区别
Storm擅长于动态处理大量实时生产的小数据块,概念上是将小数据量的数据源源不断传给过程;Spark擅长对现有的数据全集做处理,概念是将过程传给大数据量的数据。二者设计思路相反。Storm侧重于处理的实时性,Spark侧重处理庞大数据(类似于Hadoop的MR)。 Spark流模块(Spark Streaming)与Storm类似,但有区别:1.Storm纯实时,来一条数据,处转载 2018-01-08 22:50:57 · 5511 阅读 · 0 评论 -
hive与hbase的联系与区别
hive与hbase的联系与区别:共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。他们的底层是要通过mapreduce分布式计算的,hbase、hive、pig底层都是这样的。但整体来说hadoop还是比较快的,因为它是进行海量数据存储和分布式计算,这个速度已经很不错了。区别:2.Hive是建立在Hadoop之上为了减少转载 2018-04-13 21:56:56 · 436 阅读 · 0 评论 -
Kafka介绍
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同时搞定在线应用(消息)...转载 2018-10-17 16:14:37 · 326 阅读 · 0 评论 -
深度学习VS机器学习——到底什么区别
最近在听深度学习的课,老师提了一个基本的问题:为什么会出现深度学习?或者说传统的机器学习有什么问题。老师讲解的时候一带而过,什么维度灾难啊之类的,可能觉得这个问题太浅显了吧(|| Д)````不过我发现自己确实还不太明白,于是Google了一下,发现一篇很棒的科普文,这里翻译一下,分享给大家:翻译自文章:https://www.analyticsvidhya.com/blog/2017/04/co...转载 2019-02-11 11:00:39 · 2330 阅读 · 2 评论