大数据
xiaoyangxavier
士不可以不弘毅,任重而道远!
展开
-
Hadoop和Spark的异同
解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专转载 2017-05-31 10:16:12 · 323 阅读 · 0 评论 -
hadoop机架感知
背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块blo转载 2017-05-31 23:00:16 · 255 阅读 · 0 评论 -
Hadoop Yarn 框架原理及运作机制
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。转载 2017-06-29 15:46:15 · 292 阅读 · 0 评论 -
Hadoop安装
一、安装环境 操作系统:Centos 64位 二、安装JDK 安装JDK1.7或者以上版本。这里安装jdk1.7.0_79。 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 1,下载jdk-7u79-Linux-x64.gz,解压到/usr/Java/jdk1.7.0_79。原创 2017-06-21 16:55:37 · 239 阅读 · 0 评论 -
配置Hadoop开发环境(Eclipse)
通常我们可以用Eclipse作为Hadoop程序的开发平台。1) 下载Eclipse下载地址:http://www.eclipse.org/downloads/根据操作系统类型,选择合适的版本下载并安装。2) 下载并编译hadoop的Eclipse插件网上可直接下载到Hadoop 1.x 的Eclipse插件,但是该插件和Hadoop2.2 不兼容,所以无法使用。Had转载 2017-06-21 17:28:21 · 303 阅读 · 0 评论 -
Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。 新说明一下我的开发环境: 操作系统:在windows下使用wubi安装了ubuntu 10.10 hadoop版本:hadoop-0.20.2.tar.gz Eclipse版本:eclipse-jee-helios-SR1-linux-gtk.tar.gz转载 2017-06-21 18:05:21 · 411 阅读 · 0 评论 -
MongoDB与Redis的比较
MongoDB和Redis都是NoSQL,采用结构型数据存储。二者在使用场景中,存在一定的区别,这也主要由于二者在内存映射的处理过程,持久化的处理方法不同。 MongoDB建议集群部署,更多的考虑到集群方案,Redis更偏重于进程顺序写入,虽然支持集群,也仅限于主-从模式。 比较指标MongoDB(v2.4.9)Redis(v2.4.17)转载 2017-08-01 09:58:20 · 314 阅读 · 0 评论 -
fastDFS集群理解+搭建笔记
软件架构理解1FastDFS介绍1.1什么是FastDFS FastDFS是用c语言编写的一款开源的分布式文件系统。FastDFS为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管转载 2017-08-04 12:57:18 · 495 阅读 · 1 评论 -
Kafka 设计原理
一、Kafka简介Kafka是一种高吞吐量、分布式、基于发布/订阅的消息系统,最初由LinkedIn公司开发,使用Scala语言编写,目前是Apache的开源项目。跟RabbitMQ、RocketMQ等目前流行的开源消息中间件相比,Kakfa具有高吞吐、低延迟等特点,在大数据、日志收集等应用场景下被广泛使用。本文主要简单介绍Kafka的设计原理。二、Kafka架构转载 2017-08-21 15:09:21 · 659 阅读 · 0 评论 -
数据集市
1. 什么是数据集市?数据集市与数据仓库的区别? 数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型...转载 2018-05-23 15:26:10 · 19597 阅读 · 0 评论 -
redis集群JedisCluster优化 - 管道(pipeline)模式支持
Redis在3.0版正式引入了集群这个特性,扩展变得非常简单。然而当你开心的升级到3.0后,却发现有些很好用的功能现在工作不了了, 比如我们今天要聊的pipeline功能。我们知道,普通的情况下,Redis client与server之间采用的是请求应答的模式,即:Client: command1 Server: response1 Client: command2转载 2017-05-17 15:20:58 · 2010 阅读 · 0 评论 -
Redis cluster唯品会大规模生产实践
嘉宾:陈群很高兴有机会在Redis中国用户组给大家分享redis cluster的生产实践。目前在唯品会主要负责redis/hbase的运维和开发支持工作,也参与工具开发工作Outline一、生产应用场景二、存储架构演变三、应用最佳实践四、运维经验总结第1、2节:介绍redis cluster在唯品会的生产应用场景,以及存储架构的演变。转载 2017-05-15 10:38:40 · 695 阅读 · 0 评论 -
浅谈Redis数据库的键值设计
丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样,DEV和DBA需要深度沟通,review每行sql语句,也不像memcached那样,不需要DBA的参与。redis的DBA需要熟悉数据结构,并能了解使用场景。 下面举一些常见适合kv数据库的例子来谈谈键值的设计,并与关系型数据库做一个对比,发现关系型的不足之处。 用户登录系统 记录用户登录信息的一个系统, 我们转载 2017-03-02 16:03:18 · 358 阅读 · 0 评论 -
[译]Redis大冒险
一篇对使用Redis在NoSQL的世界中冒险之旅的总结。The legs of our journey像每次出发一样,先对我们这次的旅程路线做个介绍:Redis? What is it?Available datatypesWhere are my tables?A simple use caseBack home探索之一:Redis? What i转载 2017-03-02 17:40:44 · 251 阅读 · 0 评论 -
Redis的INCR方法
INCR key将 key 中储存的数字值增一。如果 key 不存在,那么 key 的值会先被初始化为 0 ,然后再执行 INCR 操作。如果值包含错误的类型,或字符串类型的值不能表示为数字,那么返回一个错误。本操作的值限制在 64 位(bit)有符号数字表示之内。这是一个针对字符串的操作,因为 Redis 没有专用的整数类型,所以 key 内储存的字符串被转载 2017-03-06 10:38:44 · 5020 阅读 · 0 评论 -
使用Redis的五个注意事项(命名)
下面内容来源于Quora上的一个提问,问题是使用Redis需要避免的五个问题。而回答中超出了五个问题的范畴,描述了五个使用Redis的注意事项。如果你在使用或者考虑使用Redis,可能你可以学习一下下面的一些建议,避免一下提到的问题。回到顶部1.使用key值前缀来作命名空间虽然说Redis支持多个数据库(默认32个,可以配置更多),但是除了默认的0号库以外,其它的都需要通过转载 2017-03-06 11:16:04 · 2204 阅读 · 0 评论 -
Redis基础
步骤一: 下载Redis下载安装包:wget http://redis.googlecode.com/files/redis-2.2.12.tar.gz[root@localhost 4setup]# wget http://redis.googlecode.com/files/redis-2.2.12.tar.gz --19:06:56-- http://redis.google原创 2017-02-27 16:05:53 · 229 阅读 · 0 评论 -
Java中使用Jedis操作Redis
使用Java操作Redis需要jedis-2.1.0.jar,下载地址:http://files.cnblogs.com/liuling/jedis-2.1.0.jar.zip如果需要使用Redis连接池的话,还需commons-pool-1.5.4.jar,下载地址:http://files.cnblogs.com/liuling/commons-pool-1.5.4.jar.zip转载 2017-03-06 15:04:12 · 316 阅读 · 0 评论 -
java操作redis3.0集群
java(JedisCluster)操作redis集群这里只是几个简单的demo,直接上代码吧,没啥好说的import org.apache.commons.pool2.impl.GenericObjectPoolConfig;import org.junit.After;import org.junit.Before;import org.junit.Test;import转载 2017-03-07 10:23:37 · 847 阅读 · 0 评论 -
Redis 集群规范(中文稿)(MOVED错误码及ASK错误码
引言?这个文档是正在开发中的 Redis 集群功能的规范(specification)文档,文档分为两个部分:第一部分介绍目前已经在 unstable 分支中实现了的那些功能。第二部分介绍目前仍未实现的那些功能。文档各个部分的内容可能会随着集群功能的设计修改而发生改变,其中,未实现功能发生修改的几率比已实现功能发生修改的几率要高。这个规范包含了编写客户端库(转载 2017-03-07 10:32:46 · 2966 阅读 · 0 评论 -
Spring + Jedis集成Redis
1、pom.xml引入资源;12345678910dependency> groupId>org.springframework.datagroupId> artifactId>spring-data-redisartifactId>转载 2017-03-21 14:44:57 · 356 阅读 · 0 评论 -
Spark:基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-07-09 09:26:01 · 311 阅读 · 0 评论