1.数据的处理流程:
收集数据—>web服务器,打日志–flume,sqoop–>hadoop(hdfs)----->数据的清理----->数据统计----->mapreduce(spark)------>存储(hdfs,hive,hbase)---->应用了。
一、Linux常用命令
基本日常操作命令
linux的文件系统:
home:用户目录的总目录,比如用户hadoop的主目录: /home/hadoop
root:是root用户的主目录
usr:unix shared resources,共享资源目录
1、查看当前所在的工作目录的全路径 pwd
[test@hdp-node-01 ~]$ pwd
/home/test
2、查看当前系统的时间 date
[test@hdp-node-01 ~]$ date +%Y-%m-%d
2016-05-18
[test@hdp-node-01 ~]$ date +%Y-%m-%d --date="-1 day" #加减也可以 month | year
2016-05-17 设置时间
date -s “2019-08-28 9:19” ## 修改时间
修改时间后,需要写入硬件bios才能在重启之后依然生效hwclock -w
3、查看有谁在线(哪些人登陆到了服务器)
who 查看当前在线
[test@hdp-node-01 ~]$ who
root tty1 2016-05-18 11:46
hadoop tty3 2016-05-18 11:46
hadoop pts/0 2016-05-18 10:57 (192.168.33.1)
last 查看最近的登陆历史记录
[test@hdp-node-01 ~]$ last -3
hadoop tty3 Wed May 18 11:46 still logged in
root tty1 Wed May 18 11:46 still logged in
hadoop pts/0 192.168.33.1 Wed May 18 10:57 still logged in
4、关机/重启
关机(必须用root用户)
shutdown -h now ## 立刻关机
shutdown -h +10 ## 10分钟以后关机
shutdown -h 12:00:00 ##12点整的时候关机
halt # 等于立刻关机
重启
shutdown -r now
reboot # 等于立刻重启
5、清屏
clear ## 或者用快捷键 ctrl + l
6、退出当前进程
ctrl+c 有些程序也可以用q键退出
7、挂起当前进程
ctrl+z ## 进程会挂起到后台
jobs ## 查看job列
bg jobid ## 让进程在后台继续执行
fg jobid ## 让进程回到前台
kill jobid ##杀掉
8、echo
相当于java中System.out.println(userName)
[root@localhost bbb]# a="婷婷是我的梦中情人"
[root@localhost bbb]#
[root@localhost bbb]# echo a
a
[root@localhost bbb]# echo $a
婷婷是我的梦中情人
目录操作
1 查看目录信息
ls / ## 查看根目录下的子节点(文件夹和文件)信息
ls -al ## -a是显示隐藏文件 -l是以更详细的列表形式显示
ls -l 有一个别名: ll 可以直接使用ll <是两个L>
补充:路径的表示方法有两种:绝对路径: /xx/yy
相对路径:… 相对于当前目录的上级
. 当前路径
2 切换工作目录
cd /home/hadoop ## 切换到用户主目录
cd ~ ## 切换到用户主目录
cd 什么路径都不带,则回到用户的主目录
c