大数据 学习笔记1

路线

  1. hadoop 高效计算
  2. spark 内存级引擎 数据挖掘与机器学习利器
  3. flink 大数据计算引擎

特点

  1. 大量 TB
  2. 快速
  3. 低价值密度 提纯
  4. 多样 结构化、非结构化

hadoop

分布式系统基础架构

解决

海量数据存储
海量数据分析计算

优势

  1. 高可靠性 维护多个副本
  2. 高扩展性 动态扩展节点
  3. 高效性 并行工作
  4. 高容错性 将失败的任务重新分配

在这里插入图片描述

Hadoop Distributed file System HDFS 分布式文件系统

解决海量数据存储问题,适合一次写入多次多出的场景

组成

  1. nameNode(nn)存储文件的元数据
  2. dataNode 本地文件系统系统文件块数据
  3. Secondary NameNode 每隔一段时间对nameNode元数据备份,分担nameNode工作量如:定期合并Fsimage和Edits
  4. mapReduce 计算 分为map reduce ,map阶段并行输入数据,reduce对map结果汇总
  5. client 文件切分、与NameNode交互、与DataNode交互、管理HDFS
    在这里插入图片描述

HDFS文件块大小block

配置dfs.block控制大小 默认128M。
寻址时间为纯属时间的1%为最佳状态

读写流程

写数据

在这里插入图片描述

读数据流程

在这里插入图片描述

nameNode工作机制

在这里插入图片描述

Fsimage 和Edits

Fsimage文件:一个永久性的检查点

checkPoint时间机制

掉线时限参数设置

网络拓扑 节点距离

节点距离:两个节点到达共同祖先的距离和
在这里插入图片描述

机架感知

副本节点的选择

mapReduce

序列化

输入数据 inputFormat
Shuffle
OutFormat
Join
ETL

压缩

p68

扩展

  • 安装 yum install - y net-tools
  • yum install -y vim
  • GFS-》HDFS
  • Map-Reduce->MR
  • BigTable->HBase
  • kill 9 杀死进程
  • 外网防火墙 systemctl stop firewalld
  • systemctl disable firewalld.service
  • rpm -qa |grep -i java| xargs -n1 rpm -e --nodeps
    查询所有rpm安装包
  • 更改今天ip
    vim /etc/sysconfig/network-scripts/ifcfg-ens33
  • 更改主机名
    vim /etc/hostname
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值