大数据概述及linux部分常用命令

大数据计算模式
 批处理计算:针对大规模数据的批量处理,如Mapreduce,spark
 流计算:针对流数据的实时计算,如storm,flume,streams
 图计算:针对大数据图结构数据的处理,如pregal,GarphX
 查询分析计算:大规模数据的存储管理和查询分析,如hive,impala,cassandra等

大数据技术
 从hadoop+storm架构转向spark架构
在这里插入图片描述

Spark优势:一套API,一站式的,spark没有存储的,只进行计算
Spark不足:实时数据处理;伪实时处理
Storm:毫秒实时处理
Hadoop核心不包含流计算

大数据并行计算
Hadoop:一个用于大规模数据处理的开源框架

Yarn:资源分配管理系统

Hadoop v2包含四个模块
 Hadoop common:这是其他hadoop模块所依赖的java库和工具,这些库提供了文件系统和os级的抽象,并包含用来启动hadoop所需的java文件和脚本
 Hadoop yarn:用于作业调度和集群资源管理的框架
 Hdfs:hadoop分布式文件系统,提供对应用程序数据高吞吐量的访问
 Hadoop mapreduce:基于yarn的系统,用于大数据集的并行计算

Linux中两个特殊符合
. 当前目录
… 上一层目录

在这里插入图片描述

Linux:
Linux系统的目录结构是分层的树形结构,都是挂载在根文件系统“/”下;使用命令“ls”可查看linux系统的目录结构。
/:代表根目录

  1. 常用文本编辑器
    Vi – 系统自带;功能较少
    vim – 需要单独安装
    nano – 需要单独安装
    gedit(只能在桌面系统下使用)

  2. Linux的文件系统

  3. Linux的常用操作命令
    ls – list
    pwd: 当前目录所在位置
    在这里插入图片描述

drwxrwxr-x
d rwxrwxr-x: 类型和权限

d: directory代表文件夹
-: 代表文件
rwx rwx r-x: 第一组代表当前用户权限;第二组代表当前用户组的权限;第三组代表其他用户的权限
rwx: 读写和执行的权限
r-x:读和执行的权限,无写的权限

bin: 存放二进制的可执行程序
etc: 存放系统的配置文件
home: 存放所有用户文件的根目录
lost-found: 存放一些系统检查结果,发现不合法文件或数据都存放在这里,通常为空,除非硬盘遭受明显损坏
tmp: 存放各种临时文件

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值