![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式
Halosec_Wei
该博主主攻python数据分析,数据挖掘,机器学习方向
展开
-
分布式-HADOOP三大组件技术概要
hadoop中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源1,概述:hdfs:分布式文件系统1.1 hdfs有着文件系统共同的特征:有目录结构,顶层目录是: ...原创 2019-08-27 16:48:35 · 1383 阅读 · 0 评论 -
分布式- wordcount程序整体运行流程
map阶段: 将每一行文本数据变成<单词,1>这样的kv数据reduce阶段:将相同单词的一组kv数据进行聚合:累加所有的v注意点:mapreduce程序中,map阶段的进、出数据,reduce阶段的进、出数据,类型都应该是实现了HADOOP序列化框架的类型,如:String对应TextInteger对应IntWritableLong对应LongWr...原创 2019-08-27 16:50:26 · 310 阅读 · 0 评论 -
分布式-单点故障解决方案->zookeeper安装与21问
部分摘至https://www.cnblogs.com/qingyunzong/p/8634335.html 目录 zookeeper集群结构 ZooKeeper21问 ZooKeeper搭建Hadoop的HA集群 为什么会有 hadoop HA 机制呢? 那如何解决呢? 集群规划 集群服务器准备 集群安装 1、安装 Zookeeper 集群 ...原创 2019-08-28 10:14:37 · 331 阅读 · 0 评论 -
分布式-一文搞定hive
目录1 什么是hive1.1 hive基本思想1.2 为什么要使用Hive1.3 Hive得特点2 hive的基本架构3 Hive安装3.2. 标准安装:将mysql作为元数据库3.2.1. mysql安装3.2.2 hive的元数据库配置4 hive使用方式4.1 最基本使用方式4.2 启动hive服务使用4.3 脚本化运行5....原创 2019-08-29 17:03:39 · 405 阅读 · 0 评论 -
分布式-zookeeper快速上手
1 zookeeper的基本功能和应用场景2 zookeeper的整体运行机制3 zookeeper的数据存储机制3.1 数据存储形式zookeeper中对用户的数据采用kv形式存储只是zk有点特别:key:是以路径的形式表示的,那就以为着,各key之间有父子关系,比如/ 是顶层key用户建的key只能在/ 下作为子节点,比如建一个key: /a...原创 2019-08-30 10:21:12 · 201 阅读 · 0 评论 -
分布式-Hbase快速入门
1. 什么是HBASE1.1 概念特性HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)Hbase的表模型与关系型数据库的表模型不同: Hbase的表没有固定的字段定义; Hbase的表中每行存储的都是一些key-value对 Hba...原创 2019-08-30 11:26:47 · 202 阅读 · 0 评论 -
Spark-RDD论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster 》有感
动机当前很多分布式计算框架无法实现高效的迭代式计算以及交互式数据挖掘,包括Hadoop!,首先为了解决高效这个问题,RDD提出基于内存的迭代思想,直接鄙视了Hadoop要不断进行磁盘Spill的弊端;其次,为了保证大数据场景下迭代计算的正常运转,RDD自身具有高容错快恢复的特点。背景及意义1、Hadoop?Hadoop为分布式大规模数据的计算而生,但别忘了,Hadoop依托于HDFS...原创 2019-09-21 22:28:11 · 675 阅读 · 0 评论