迷失在大数据的海洋?别担心,让我们从零开始!🌊
学习大数据时,学习Linux系统是至关重要的,
为什么我们学习大数据要使用linux系统呢?
可能就有人好奇为什么我们学习大数据要使用linux系统呢?为什么不使用电脑自带的Windows系统呢?
最关键的一点:Windows的运行会将所有运行数据储存在内存中,这里的内存是运行内存,而linux在运行是只会将少部分数据储存在内存中,大部分数据都会储存在磁盘中。
其他的还有以下几个原因:
1. 大数据工具和平台的主流操作系统:
- 大数据领域中很多工具和平台,如Hadoop、Spark、Hive、HBase等,更倾向于在Linux系统上运行。这是因为Linux系统通常更稳定、更可靠,而且对于大规模数据处理和分布式计算更具优势。
2. 开源生态系统的基石:
- 大数据生态系统中的很多组件和工具都是基于开源软件,而Linux系统是开源的基石。通过学习Linux,你能更好地理解开源文化、工具的运作机制,并能更好地参与到大数据开源社区中。
3. 远程服务器管理:
- 在大数据领域,很多时候数据存储和处理都发生在远程服务器上。通过Linux系统的学习,你能够更熟练地进行远程服务器的管理、文件传输、运行程序等操作,这对于大数据工程师是非常重要的技能。
4. 命令行操作与自动化:
- Linux系统以其强大的命令行工具而闻名。在大数据环境中,通过命令行进行操作可以更高效地管理和处理数据。此外,自动化是大数据处理中的一个重要方面,而Linux上的脚本编程是实现自动化操作的关键。
5. 性能和资源管理:
- 大数据处理通常需要高性能和高效的资源管理。Linux系统对于资源的管理、优化和调整提供了强大的支持。学习Linux能够帮助你更好地理解和优化大数据应用的性能。
6. 容器技术:
- 容器化技术如Docker广泛应用于大数据领域。Docker等容器技术主要运行在Linux环境中。通过学习Linux系统,你能更好地理解和使用容器技术,实现大数据应用的快速部署和管理。
7. 安全性和权限管理:
- 在大数据处理中,数据的安全性至关重要。学习Linux系统可以帮助你更好地理解和实施安全措施,包括用户权限管理、文件权限设置等。
总体而言,学习Linux系统是进入大数据领域的必经之路。它不仅是技术的基石,也是提高工作效率、解决问题的得力工具。熟练掌握Linux系统将使你在大数据领域更加游刃有余。
然后可能又有小伙伴要好奇了,Linux系统这么好为什么我们的电脑都使用Windows系统呢?
最关键的一点就是软件兼容性,很多软件并不支持Linux系统,其次就是因为Windows操作太简单太舒服了,用户体验度很高。
在Linux系统的学习中我们需要使用虚拟机来学习。为什么呢?
致命的一点就是我们既没有服务器又只能用一台电脑来学习,Windows系统又不可能不用,所以就要用到虚拟机。
Linux基础知识包含了许多关键概念和操作,让我们更详细地了解每个方面:
1. 基本概念
- Linux内核: 操作系统的核心,管理硬件资源,实现计算机功能。
- Shell: 用户与系统交互的命令行界面,如Bash、Zsh等,提供了访问内核功能的方式。
2. 文件系统
- 目录结构:以树形结构组织,根目录为`/`,包括`/bin`、`/etc`、`/home`等目录。
- 路径: 文件或目录在系统中的位置。绝对路径从根目录开始,相对路径相对于当前目录。
3. 基本命令行操作:
- ls: 列出目录内容。直接输入就可以使用
- cd: 切换目录。同ls
- cp: 复制文件或目录。
cp file.txt /path/to/destination/
- mv: 移动或重命名文件或目录。
mv file.txt /new/path/
mv old_name.txt new_name.txt
- rm:删除文件或目录
rm file.txt
权限管理:
- chmod:修改文件或目录的权限。
chmod 755 file.txt
- chown:修改文件或目录的所有者。
chown user:group file.txt
- chgrp: 修改文件或目录的所属组。
chgrp new_group file.txt
文本编辑器:
- Vi或Vim:常用文本编辑器,用于编辑配置文件等。
vim filename.txt
用户和组管理:
- useradd:添加用户。
useradd newuser
- passwd: 设置用户密码。
passwd newuser
- usermod:修改用户属性。
usermod -aG groupname newuser
- groupadd:添加用户组。
groupadd newgroup
软件包管理:
- apt(Debian/Ubuntu):包管理工具,用于安装、卸载和更新软件。
sudo apt-get install package_name
- yum/dnf(Red Hat/CentOS):另一种包管理工具。
sudo yum install package_name
进程管理:
- ps:显示系统中的进程。
ps aux
- kill:终止进程。
kill -9 process_id
网络基础:
- ifconfig/ip:显示和配置网络接口。同ls 直接使用
- ping:检查网络连接。
ping google.com
- netstat:显示网络状态。
netstat -an
-Shell脚本基础
echo "Hello, World!" > 1.txt
- uname: 显示系统信息。
uname -a
- df/du: 查看磁盘空间使用情况。
df -h
du -h /path/to/directory
4.常用快捷键
1、清屏
CTRL + 字母l 或者 clear
2、结束执行
CTRL + c
3、登出
CTRL + d
4、回到行首
CTRL + a
5、回到行尾
CTRL + e
6、跳转到前个单词(结尾)
CTRL + ←
注意: 不是每个工具都支持(CRT不支持,FinalShell ,tabby支持)
7、跳转到后个单词(结尾)S
CTRL + →
注意: 不是每个工具都支持(CRT不支持,FinalShell ,tabby支持)
8、直接使上个命令出现
CTRL + ↑
注意: 不是每个工具都支持
5.Linux的软件安装方式
1、手动安装
自己去官网下载安装包, 即: *.tar.gz, 然后上传到Linux系统中, 手动进行安装配置即可.
tarball: 压缩包, gzip: 压缩协议.
例如: JDK, Zookeeper, Hadoop, Hive…
2、rpm方式
RedHat Package Manager, 小红包的包管理器, 可以自动联网进行下载, 并安装程序.
但是不能自动解决依赖问题, 例如: 装A需要依赖B和C, 则需要手动先装B和C, 才能装A.
例如: 安装MySQL
3、yum方式
yellow dog updater modified, 黄狗更新程序, 基于RPM的, 可以自动解决依赖.
例如: tree命令, lrzsz命令, wget命令…
格式: yum [-y] install | remove | search 包名
选项解释: -y 表示同意输入yes
参数解释: install:安装 remove:卸载 search: 查找并安装
6.控制服务的开启关闭
描述:systemctl 命令,来源于system control,系统控制格式: systemctl status | start | stop | restart |enable | disable 服务名
参数解释:
start:启动
stop:关闭
status:查看状态
enable:开启开机自启
disable:关闭开机自启常用的服务:
NetWorkManager : 主网络服务
network : 副网络服务
firewall : 防火墙
sshd : 远程连接服务(协议)
那么文章到此截止,不足之处请各位大佬多多指教
愿你在大数据的海洋中航行顺风,发现属于你的数据宝藏!🚢💻