大数据-理论
文章平均质量分 61
思路清晰的小王
How
展开
-
一文教你看懂大数据的技术生态圈:Hadoop,hive,spark
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。转载 2016-04-13 10:20:29 · 271 阅读 · 0 评论 -
hadoop详解一
hadoop详解原创 2016-10-28 11:40:48 · 279 阅读 · 0 评论 -
Spark详解一
Spark详解原创 2016-10-28 11:41:21 · 262 阅读 · 0 评论 -
Storm详解一
Storm详解原创 2016-10-28 11:42:09 · 291 阅读 · 0 评论 -
Hadoop 3.0.0-α1:common:overview
Apache Hadoop 3.0.0-alpha1包含很多重要的改进在hadoop2.x的基础上。这个是一个alpha 版,通过开发者和使用者帮助测试和搜集反馈。API的稳定性和质量还不能保证。概述提倡阅读全部发布说明,这里对更改内容做一个概述。1.Java最低版本要求从Java7更改为Java8所有的Hadoop JARs针对运行时版本的Java 8被编译。原创 2016-12-04 21:22:17 · 367 阅读 · 0 评论 -
如何进行大数据分析及处理?
大数据的分析从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法转载 2017-02-13 17:27:06 · 902 阅读 · 0 评论 -
关系型数据库与NOSQL
关系型数据库把所有的数据都通过行和列的二元表现形式表示出来。 关系型数据库的优势:1. 保持数据的一致性(事务处理)2.由于以标准化为前提,数据更新的开销很小(相同的字段基本上都只有一处)3. 可以进行Join等复杂查询其中能够保持数据的一致性是关系型数据库的最大优势。 关系型数据库的不足:不擅长的处理1. 大量数据的转载 2017-02-13 17:40:11 · 416 阅读 · 0 评论 -
大数据处理分析的六大最好工具
我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向。本文转载自中国大数据网。大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数转载 2017-02-14 09:50:42 · 10277 阅读 · 0 评论 -
用户画像数据建模方法(转)
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮转载 2017-02-14 15:19:30 · 617 阅读 · 0 评论 -
zookeeper leader选举机制
转载最近看了下zookeeper的源码,先整理下leader选举机制先看几个关键数据结构和函数服务可能处于的状态,从名字应该很好理解public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING;} 选票参数,还有Notification,参数也都差不多 stat原创 2017-03-07 22:04:28 · 497 阅读 · 0 评论 -
数据仓库与数据库
数据库和数据仓库都是用来存储数据的,只不过存的形式不同;数据库是按照应用给的数据形式存储,可以增删改查;数据仓库是面向主题的、集成的、与时间相关且不可修改的数据集合。“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位原创 2016-10-26 11:47:56 · 425 阅读 · 0 评论 -
HBase详解一
HBase详解一原创 2016-11-04 19:53:05 · 344 阅读 · 0 评论 -
HDFS详解一
HDFS详解原创 2016-11-04 19:52:30 · 363 阅读 · 0 评论 -
用Hadoop,你的数据真的够大么?
“你有多少大数据和Hadoop的经验?”他们问我。我一直在用Hadoop,但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念,写过代码,但是没有大规模经验。接下来他们会问:“你能用Hadoop做简单的group by和sum操作吗?”我当然会,但我会说需要看看具体文件格式。他们给我一个U盘,里面有所有的数据,600MB,对,他们所有的数据。不知道为什么,我用pand转载 2016-05-24 22:41:47 · 1612 阅读 · 1 评论 -
理解Spark的核心RDD
与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。转载 2016-04-21 10:08:00 · 277 阅读 · 0 评论 -
RDD原理与详解
RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,它的功能还包括容错、集合内的数据可以并行处理等。图1是RDD类的视图。图1一个简单的转载 2016-04-21 11:24:01 · 407 阅读 · 0 评论 -
Spark安装与学习
Spark安装与学习 摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-13转载 2016-05-22 08:53:17 · 338 阅读 · 0 评论 -
浅析 MapReduce/ Spark/ Spark Steaming/ Storm 与 HBase/HDFS
mapreduce 是大的批量操作,不要求时限。基于文件系统,hdfs。spark 是快速的批量操作,基于内存,所以速度快。其主要亮点在于把过程给数据。storm是流式处理,快速实时。storm技术架构:Flume + kafka + Storm / Spark + Hbase / Redis的技术架构。storm:: 把topology有向原创 2016-10-25 18:58:19 · 4751 阅读 · 1 评论 -
zoomkeeper / Yarn
zookeeperyarn原创 2016-10-28 11:31:54 · 1321 阅读 · 0 评论 -
yarn详解一
yarn详解原创 2016-11-04 19:49:17 · 218 阅读 · 0 评论 -
kafka详解一
kafka原创 2016-10-28 14:09:10 · 272 阅读 · 0 评论