分布式
Halosec_Wei
该博主主攻python数据分析,数据挖掘,机器学习方向
展开
-
分布式-HADOOP三大组件技术概要
hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 1,概述:hdfs:分布式文件系统 1.1 hdfs有着文件系统共同的特征: 有目录结构,顶层目录是: ...原创 2019-08-27 16:48:35 · 1365 阅读 · 0 评论 -
分布式- wordcount程序整体运行流程
map阶段: 将每一行文本数据变成<单词,1>这样的kv数据 reduce阶段:将相同单词的一组kv数据进行聚合:累加所有的v 注意点:mapreduce程序中, map阶段的进、出数据, reduce阶段的进、出数据, 类型都应该是实现了HADOOP序列化框架的类型,如: String对应Text Integer对应IntWritable Long对应LongWr...原创 2019-08-27 16:50:26 · 306 阅读 · 0 评论 -
分布式-单点故障解决方案->zookeeper安装与21问
部分摘至https://www.cnblogs.com/qingyunzong/p/8634335.html 目录 zookeeper集群结构 ZooKeeper21问 ZooKeeper搭建Hadoop的HA集群 为什么会有 hadoop HA 机制呢? 那如何解决呢? 集群规划 集群服务器准备 集群安装 1、安装 Zookeeper 集群 ...原创 2019-08-28 10:14:37 · 313 阅读 · 0 评论 -
分布式-一文搞定hive
目录 1 什么是hive 1.1 hive基本思想 1.2 为什么要使用Hive 1.3 Hive得特点 2 hive的基本架构 3 Hive安装 3.2. 标准安装:将mysql作为元数据库 3.2.1. mysql安装 3.2.2 hive的元数据库配置 4 hive使用方式 4.1 最基本使用方式 4.2 启动hive服务使用 4.3 脚本化运行 5....原创 2019-08-29 17:03:39 · 401 阅读 · 0 评论 -
分布式-zookeeper快速上手
1 zookeeper的基本功能和应用场景 2 zookeeper的整体运行机制 3 zookeeper的数据存储机制 3.1 数据存储形式 zookeeper中对用户的数据采用kv形式存储 只是zk有点特别: key:是以路径的形式表示的,那就以为着,各key之间有父子关系,比如 / 是顶层key 用户建的key只能在/ 下作为子节点,比如建一个key: /a...原创 2019-08-30 10:21:12 · 201 阅读 · 0 评论 -
分布式-Hbase快速入门
1. 什么是HBASE 1.1 概念特性 HBASE是一个数据库----可以提供数据的实时随机读写 HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库) Hbase的表模型与关系型数据库的表模型不同: Hbase的表没有固定的字段定义; Hbase的表中每行存储的都是一些key-value对 Hba...原创 2019-08-30 11:26:47 · 200 阅读 · 0 评论 -
Spark-RDD论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster 》有感
动机 当前很多分布式计算框架无法实现高效的迭代式计算以及交互式数据挖掘,包括Hadoop!,首先为了解决高效这个问题,RDD提出基于内存的迭代思想,直接鄙视了Hadoop要不断进行磁盘Spill的弊端;其次,为了保证大数据场景下迭代计算的正常运转,RDD自身具有高容错快恢复的特点。 背景及意义 1、Hadoop? Hadoop为分布式大规模数据的计算而生,但别忘了,Hadoop依托于HDFS...原创 2019-09-21 22:28:11 · 660 阅读 · 0 评论