[Hadoop]大数据导论与Linux基础

目录

大数据导论

企业数据分析方向

数据分析基本步骤

大数据时代

分布式与集群

Linux操作系统概述

操作系统概念与分类

Linux起源与发展

Linux内核与发行版本

VMware Workstation虚拟机使用

VMware虚拟机概念

VMware虚拟机常规使用

Linux常用基础命令

Linux文件系统基础知识

Linux常用操作命令

Linux常用系统命令

vi/vim文本编辑器

vim编辑器介绍、3种工作模式

vim基本操作命令

大数据导论

企业数据分析方向

数据分析在企业日常经营分析中主要有三大方向:

  • 现状分析:实时分析,面向当下,分析实时产生的数据,所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。

  • 原因分析:离线分析,面向过去,分析已有的数据。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。

  • 预测分析:机器学习,基于历史数据和当下产生的实时数据预测未来发生的事情。侧重于数学算法的运用。

数据分析基本步骤

  1. 明确分析的目的和思路

  2. 数据收集

  3. 数据(预)处理

  4. 数据分析

  5. 数据展现(数据可视化)

  6. 报告撰写

一切围绕着数据,通俗描述:数据从哪里来、数据到哪里去。

大数据时代

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据5V特征

  • Volume数据体量大

    • 采集数据量大

    • 存储数据量大

    • 计算数据量大

    • TB、PB起步。

  • Variety种类、来源多样化

    • 种类:结构化、半结构化、非结构化

    • 来源:日志文件、图片、音频、视频

  • Value低价值密度

    • 信息海量但是价值密度低

    • 深度复杂的挖掘分析需要机器学习参与

  • Velocity速度快

    • 数据增长速度快

    • 获取数据速度快

    • 数据处理速度快

  • Veracity数据的质量

    • 数据的准确性

    • 数据的可信赖度

应用场景

  • 抖音:推荐的都是你喜欢的视频

  • 电商站内广告推荐:给用户推荐可能喜欢的商品

  • 零售:纸尿布+啤酒

  • 物流存储

  • ......

分布式与集群

分布式:多台机器,每台机器上部署不同组件。

集群:多台机器,每台机器上部署相同组件。

应用

数据大爆炸,海量数据处理场景面临问题。

存储:单机存储有瓶颈,多台机器分布式存储。

计算:单机计算能力有限,多台机器分布式计算。

Linux操作系统概述

操作系统概念与分类

操作系统概念

  • 操作系统(OS)是管理计算机硬件与软件资源的程序。

  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。

  • 操作系统也提供一个用户与系统交互的操作界面。

操作系统分类

  • 桌面操作系统:桌面指的是图形化操作页面。Mac os(Apple)、Window(Microsoft)、Linux三足鼎立。

  • 嵌入式操作系统:单片机。

  • 服务器操作系统:一般指的是安装在大型计算机上的操作系统。主要分为四大流派:Unix、Linux、Windows Server和Netware。

  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。主要有:iOS(苹果)、Android(谷歌)、Harmony(华为鸿蒙)

Linux起源与发展

  • Unix系统较早被广泛使用的计算机操作系统之一,因版权、开源等问题,延伸出不同Unix版本。

  • Linus Torvalds发布Linux系统的第一版本,遵循GPL协议(通用公共许可证),开源免费。

  • Linux是一个类似Unix的操作系统,并在功能和用户体验上进行优化,Linux并没有抄袭Unix的源码,只是外观类似。

Linux内核与发行版本

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux第一版独立内核由Linus Torvalds开发实现,约10000行代码。

  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写。

  • Linux操作系统=Linux Kernel+GNU软件及系统软件+必要的应用程序。

Linux发行版本

  • Linux发行版可分为个人桌面版和企业服务器版。

  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延申版本(Centos)凭借稳定的性能在服务器中占比很大。

 

VMware Workstation虚拟机使用

VMware虚拟机概念

它是一款虚拟机软件,允许用户将Linux、Windows等多个操作系统作为虚拟机在单台PC上运行。

最好将软件安装到一个没有中文、没有空格的目录下。

VMware虚拟机常规使用

快照使用:

  • VMware虚拟机软件提供了快捷功能,用于记录某一时间点的状态,用户备份恢复;

  • 拍好快照之后,可以在任何时间恢复到指定的快照时间点。

  • 如果需要快照跳转恢复,3台虚拟机必须要同时进行恢复,避免彼此之间时间状态不同步。

  • 在Linux中,SSH的主要用途有:用户加密实现远程登录、服务器之间的免密登录。

Linux常用基础命令

Linux文件系统基础知识

Linux文件系统概念

  • 操作系统中负责管理和存储文件信息的软件称为文件管理系统,简称文件系统。

  • 文件系统的结构通常叫做目录树结构,以/root开始。

  • Linux号称“万物皆文件”,意味着针对Linux的操作,大多数时间是在针对Linux文件系统操作。

 

文件系统通用特征

  • 大部分文件系统都以/root开始。

  • 目录树中节点分为两个种类:目录、文件

  • 从根目录开始,路径具有唯一性。

  • 只有在目录下才可以继续创建下一级目录。

易混概念

  • 当前路径:也叫当前工作目录,当下用户所属的位置。查看用pwd。

  • 相对路径:相对当前工作目录开始的路径,会随着当前路径变化而变化。

  • 绝对路径:不管工作目录在哪,绝对路径都以/开始,唯一不重复。

 

特殊符号

  • . 目录或者文件名字以.开始表示是隐藏的文件,如果路径以.开始表示当前路径

  • .. 当前目录的上一级目录

  • ~ 当前用户的home目录,比如root用户的home目录是/root

  • / 根目录

 

Linux常用操作命令

  • Tab键可以实现自动补全和提示功能,要合理使用。

  • history命令可以显示历史执行记录,或者使用方向键来切换前后执行过的命令。

显示目录内容

ls命令:

  • ls -a 显示所有文件及目录(隐藏文件也会显示)

  • ls -l 或 ll 将文件信息详细列出

切换目录

cd命令:切换的路径可以是绝对路径或相对路径。若路径省略,则变换至使用者的home目录。

  • cd ~ 切换至家目录

  • cd . 表示目前所在的目录

  • cd .. 切换至当前目录的上一级目录

创建、删除

  • mkdir命令:用于创建目录

    • mkdir a 表示在当前目录下创建a文件,不能创建 /a/b

    • mkdir -p /a/b 表示在当前目录下创建/a/b

  • touch命令:创建一个空文件,无任何内容

  • rm命令:用于删除一个文件或目录

    • rm -rf aaa 将aaa文件强制删除,以及aaa的子文件也强制删除

复制、移动

  • cp命令:用于复制文件或目录

    • cp -r aaa/ bbb/ 将aaa递归复制到bbb下

  • mv命令:用来为文件或目录改名、或将文件或目录移入到其他位置。

    • mv aaa(文件) ccc(文件) 将aaa改为ccc

    • mv aaa(文件) ccc(目录) 将aaa文件移动到ccc目录下

文件内容查看

  • cat命令:适合小文件内容的查看,直接输出到控制台。

    • cat 1.txt

  • more命令:类似cat,不过会以一页一页的形式显示,翻页结束自动退出,适合大文件的查看。按space键翻下一页,按b翻上一页。

  • tail:用于查看文件的结尾部分的内容。

其他

  • | 管道命令: 命令1|命令2 可以将命令1的结果通过命令2做进一步的处理

  • echo命令:将内容输出到控制台上。

    • echo 111

  • > 输出重定向(覆盖)命令

  • >> 输出重定向(追加)命令

 

打包、解包

tar 命令:常用于备份文件。

  • tar -cvf test.tar 1.txt 2.txt 将1.txt和2.txt打包到test.tar中

  • tar xvf test.tar -C /aaa/ 将test.tar中的文件解包到 aaa目录下

解压缩命令

  • tar zcvf test.tar.gz 1.txt 2.txt 将1.txt和2.txt压缩到test.tar.gz

  • tar zxvf test.tar.gz -C /aaa/ 将test.tar.gz解压到aaa目录下

Linux常用系统命令

时间、日期查看

  • date命令:用来显示或设定系统的日期与时间

  • cla命令:用于显示当前或者指定日期的公历

内存、磁盘使用率查看

  • free -h:用于显示内存状态

  • df -h:用于显示Linux系统上的文件系统磁盘使用情况统计

进程查看

  • ps命令:用于显示当前进程的状态,类似于windows的任务管理器

    • ps -ef :查看所有进程

    • kill -9 进程号:杀死进程

  • jps命令:这是JDK自带的命令,专门用于查看本机运行的java进程情况,必须在安装好JDK之后才可以使用

vi/vim文本编辑器

vim编辑器介绍、3种工作模式

vim编辑器简介

  • vim是从vi发展出来的一个文本编辑器,可以理解为vi编辑器的增强版。

  • 万物皆命令。

 

vim /path/file

  • 如果打开的文件不存在,此时就是新建文件

  • 如果打开的文件已存在,进入命令模式

vim编辑器的3种工作模式

 

在命令模式下:按shift+zz,可以实现快速的保存退出

vim基本操作命令

光标移动

  • 方向控制键

  • 翻页 pageup pagedown

  • 行首 (0) 行尾 ($)

  • 跳到文件的最后一行 G

  • 跳到文件的第一行 gg

复制粘贴

  • 复制

    • yy 复制光标当前所在行内容

    • nyy复制当前行往下n行

  • 粘贴

    • p 当前行的下一行粘贴

    • P 当前行的上一行粘贴

删除、撤销操作

  • 删除命令

    • dd 删除光标所在当前行的内容

    • ndd 删除当前行往下n行

  • 撤销、反撤销

    • u 撤销上一步的操作(后悔药)

    • ctrl+r 反撤销

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ja kar ta

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值