大数据
文章平均质量分 71
_从头再来_
不积跬步无以至千里
展开
-
Hadoop入门
转自:http://blog.csdn.net/yuan_xw/article/details/500031971 Hadoop入门教程Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/),用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce,...转载 2018-02-23 15:57:21 · 2077 阅读 · 0 评论 -
hadoop HDFS存储原理
跟据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与转载 2018-02-26 23:33:53 · 358 阅读 · 0 评论 -
Apache Hive
一、Apache Hive简介官方网址:https://hive.apache.org/The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure...原创 2018-02-27 10:22:38 · 261 阅读 · 0 评论 -
Java操作Redis
目前Jedis是官方推荐的比较好的Redis操作API包,我们这里结合Spring来看下如何使用Redis这一神器。1、在pom文件中引入jredis包: redis.clients jedis 2.8.12、在Spring的resource目录中增加Redis的配置文件/src/main/resources/redis.properties#转载 2018-03-07 17:12:18 · 269 阅读 · 0 评论 -
MapReduce的原理及执行过程
MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce执行流程 MapReduce原理 MapReduce的执行步骤:1、Map任务处理 1.1转载 2018-03-13 20:54:31 · 282 阅读 · 0 评论 -
Kafka史上最详细原理总结
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Link...转载 2018-06-30 00:26:41 · 232 阅读 · 0 评论 -
Kafka传递自定义对象
1、搭好相应的环境(ZK+kafka),保证kafka能正常的发送接收消息 2、新建一个工具类,负责对象字节数组的相互转换,传输数据用package com.kafka.util;import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.IOException;impor...转载 2018-07-07 08:39:12 · 2459 阅读 · 0 评论 -
ElasticSearch原理
Elasticsearch-基础介绍及索引原理分析最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。介绍官网:http...转载 2019-03-14 10:08:29 · 266 阅读 · 0 评论 -
Elastic Search 概述
官网:https://www.elastic.co/guide/cn/elasticsearch/guide/current/administration.htmlElasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨论……0. 带着问题上路——ES是如何产生的?(1)思考:大规模数据...转载 2019-03-14 10:29:11 · 479 阅读 · 0 评论 -
Java操作Elasticsearch
1 添加pom.xml依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>elasticsearch-rest-high-level-client</artifactId> <version>6.3.2</vers...原创 2019-06-26 19:46:46 · 342 阅读 · 0 评论 -
用java编写spark程序,简单示例及运行
最近因为工作需要,研究了下spark,因为scala还不熟,所以先学习了java的spark程序写法,下面是我的简单测试程序的代码,大部分函数的用法已在注释里面注明。我的环境:hadoop 2.2.0 spark-0.9.0 scala-2.10.3 jdk1转载 2018-02-26 23:02:17 · 21150 阅读 · 3 评论 -
Spark-利用SparkLauncher 类以JAVA API 编程的方式提交spark job
一.环境说明和使用软件的版本说明:hadoop-version:hadoop-2.9.0.tar.gz spark-version:spark-2.2.0-bin-hadoop2.7.tgzjava-version:jdk1.8.0_151集群环境:单机伪分布式环境。二.适用背景在学习Spark过程中,资料中介绍的提交Spark Job的方式主要有两种(我所知道...转载 2018-02-26 22:56:08 · 841 阅读 · 0 评论 -
mesos概述
转自http://blog.csdn.net/lsshlsw/article/details/47086869mesos解决的问题不同的分布式运算框架(spark,hadoop,ES,MPI,Cassandra,etc.)中的不同任务往往需要的资源(内存,CPU,网络IO等)不同,它们运行在同一个集群中,会相互干扰,为此,应该提供一种资源隔离机制避免任务之间由资源争用导致效转载 2018-02-26 17:17:31 · 452 阅读 · 0 评论 -
Hadoop之 YARN 简介
简介Apache Hadoop 2.0 包含 YARN,它将资源管理和处理组件分开。基于 YARN 的架构不受 MapReduce 约束。本文将介绍 YARN,以及它相对于 Hadoop 中以前的分布式处理层的一些优势。本文将了解如何使用 YARN 的可伸缩性、效率和灵活性增强您的集群。Apache Hadoop 简介Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机...原创 2018-02-23 16:39:08 · 603 阅读 · 0 评论 -
Hadoop之MapReduce
1 MapReduce编程1.1 MapReduce简介MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,用于解决海量数据的计算问题。MapReduce分成了两个部分: 1、映射(Mapping)对集合里的每个目标应用同一个操作。即,如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping。 2、化简(Reducing)遍...转载 2018-02-23 16:51:07 · 136 阅读 · 0 评论 -
Hadoop之MapReduce框架Partitioner分区
1 Partitioner分区1.1 Partitioner分区描述 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,按照手机号码段划分的话,需要把同一手机号码段的数据放到一个文件中;按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味...转载 2018-02-23 16:53:26 · 299 阅读 · 0 评论 -
ZooKeeper Watch Java API浅析exists
转自http://blog.csdn.net/lipeng_bigdata/article/details/50985993 Watch是ZooKeeper中非常重要的一个机制,它可以监控ZooKeeper中节点的变化情况,告知客户端。下面,我们以代码为例来分析Watch在ZooKeeper中是如何实现的。ZooKeeper中一共由三种方法可以实现Watch,分别为getData转载 2018-02-24 16:42:51 · 1949 阅读 · 1 评论 -
ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用
ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于Zo转载 2018-02-24 23:41:42 · 1407 阅读 · 0 评论 -
使用ZooKeeper实现Java跨JVM的分布式锁
转自http://blog.csdn.net/nimasike/article/details/51567653说明:本文是使用Curator框架进行讲解及演示,Curator是对Zookeeper客户端的一个封装,因为Zookeeper的客户端实现偏底层,如果想要实现锁或其他功能都需要自己封装,实现一些简单的功能还可以,如果想要实现锁这种高并发下的东西,不建议自己封装,除非你自信你写转载 2018-02-24 15:26:48 · 169 阅读 · 0 评论 -
zookeeper集群部署及测试
环境三台测试机操作系统: centos7 ; hostname: c1 ; ip: 192.168.1.80操作系统: centos7 ; hostname: c2 ; ip: 192.168.1.81操作系统: centos7 ; hostname: c3 ; ip: 192.168.1.82备注注意要关闭防火墙查看磁盘状况为了避免磁盘使用不均而导致系原创 2017-12-09 08:22:13 · 310 阅读 · 0 评论 -
Spark 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数转载 2018-02-26 16:19:47 · 264 阅读 · 0 评论 -
Spark集群三种部署模式的区别
Spark最主要资源管理方式按排名为Hadoop Yarn, Apache Standalone 和Mesos。在单机使用时,Spark还可以采用最基本的local模式。目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资转载 2018-02-26 16:20:50 · 937 阅读 · 0 评论 -
Hbase
https://www.csdn.net/gather_2d/MtTaEgzsNjg2OC1ibG9n.html原创 2019-09-17 10:55:21 · 148 阅读 · 0 评论