大数据
maintain001
事不关己的向前走
展开
-
ubuntu下hadoop+eclipse开发环境的搭建
我们需要准备一下文件: 1.eclipse下载地址是:http://www.eclipse.org/downloads/ 2.Hadoop的Eclipse插件(版本为2.7.2对应hadoop版本2.7):http://download.csdn.net/detail/u012999810/9524816首先需要在ubuntu下安装hadoop,这里不做详细介绍,站在其他人的肩膀上来的更快,所以原创 2016-05-19 12:41:32 · 7398 阅读 · 2 评论 -
大数据
大数据的概念: SNIA 定义:数据量特别巨大,在最强大的标准计算平台上都无法对全部数据进行有效处理的数据集。 Gartner 对大数据的定义:大数据 是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的数据来源: (1)视屏、图片、文字数据 (2)社交网络数据 (3)科学研究数据 (4)商业交易数据 (5)用户行为数据大数据原创 2016-10-08 17:16:42 · 615 阅读 · 0 评论 -
Flume
flume用来导入数据 Flume支持单节点和级联两种方式 FLUME对数据的处理是以一个时间为单位的 Source有两种方式 Sourace有多种类型,用来获取不同的数据 Chinnel的作用类似于一个队列,在Source和Sink之间缓存数据,使用的时候,根据业务需要对选择使用内存方式还是文件方式或者数据库方式。 Sink Flume支持采集日志文件 Flume支持多级级联和多路翻译 2017-01-17 15:24:17 · 647 阅读 · 0 评论 -
Loader
用来做数据采集 提供定时调度,周期性执行作业 Loader模块架构 作业转化通过规则来实现,规则由算子构成翻译 2017-01-17 15:48:17 · 420 阅读 · 0 评论 -
Solr
Solr提供文件检索服务翻译 2017-01-17 16:11:14 · 294 阅读 · 0 评论 -
kafka
topics数据分类 一个topic有多个Partion每个Partition是一个文件夹 ksfka patition replication kafka logs kafka nessage kafka log Cleanup kafka数据可靠性(最多一次,最少一次,仅有一次) Producer写数据翻译 2017-01-17 16:27:45 · 430 阅读 · 0 评论 -
Streaming
Streaming基于stom是一个分布式,实时计算的框架 Nimbus 每个节点上有一个supervisor Topology Worker Spout Bolt Task Streams/Tuple翻译 2017-01-17 18:01:17 · 343 阅读 · 0 评论 -
linux下安装JDK
http://www.cnblogs.com/doubleming/p/3516372.html转载 2017-05-27 10:17:36 · 308 阅读 · 0 评论