[MIT公开课(计算机教育中缺失的一课)]4.数据整理

(该系列文章大部分内容来源于MIT课程笔记,加入了个人的理解、原笔记中没有的细节和其他的需要理解的内容,公开课地址:https://www.bilibili.com/video/BV14E411J7n2?p=1

上一讲:编辑器(Vim)
下一讲:命令行环境



管道

在之前的课程中,其实我们已经接触到了一些数据整理的基本技术。可以这么说,每当您使用管道运算符的时候,其实就是在进行某种形式的数据整理。

例如这样一条命令 journalctl | grep -i intel,它会找到所有包含intel(区分大小写)的系统日志。您可能并不认为是数据整理,但是它确实将某种形式的数据(全部系统日志)转换成了另外一种形式的数据(仅包含intel的日志)。大多数情况下,数据整理需要您能够明确哪些工具可以被用来达成特定数据整理的目的,并且明白如何组合使用这些工具。

既然是学习数据整理,那有两样东西自然是必不可少的:用来整理的数据以及相关的应用场景。日志处理通常是一个比较典型的使用场景,因为我们经常需要在日志中查找某些信息,这种情况下通读日志是不现实的。现在,让我们研究一下系统日志,看看哪些用户曾经尝试过登录我们的服务器(ssh是通过命令行远程访问计算机的方法):

ssh myserver journalctl

内容太多了。现在让我们把涉及 sshd 的信息过滤出来:

ssh myserver journalctl | grep sshd

注意,这里我们使用管道将一个远程服务器上的文件传递给本机的 grep 程序!此时我们打印出的内容,仍然比我们需要的要多得多,读起来也非常费劲。我们来改进一下:

ssh myserver 'journalctl | grep sshd | grep "Disconnected from"' | less

多出来的引号是什么作用呢?我们的日志是一个非常大的文件,把这么大的文件流直接传输到我们本地的电脑上再进行过滤是对流量的一种浪费。因此我们采取另外一种方式,将所需要的操作传递给远程服务器的shell执行,这样在远端机器上过滤文本内容,然后再将结果传输到本机。 less 为我们创建来一个文件分页器,使我们可以通过翻页的方式浏览较长的文本。为了进一步节省流量,我们甚至可以将当前过滤出的日志保存到文件中,这样后续就不需要再次通过网络访问该文件了:

$ ssh myserver 'journalctl | grep sshd | grep "Disconnected from"' > ssh.log
$ less ssh.log

过滤结果中仍然包含不少没用的数据。我们有很多办法可以删除这些无用的数据,但是让我们先研究一下 sed 这个非常强大的工具。

sed 是一个基于文本编辑器ed构建的”流编辑器” 。在 sed 中,您基本上是利用一些简短的命令来修改文件,而不是直接操作文件的内容(尽管您也可以选择这样做)。相关的命令行非常多,但是最常用的是 s,即替换命令,例如我们可以这样写:

ssh myserver journalctl
 | grep sshd
 | grep "Disconnected from"
 | sed 's/.*Disconnected from //'

上面这段命令中,我们使用了一段简单的正则表达式。s 命令的语法如下:s/REGEX/SUBSTITUTION/, 其中 REGEX 部分是我们需要使用的正则表达式,而 SUBSTITUTION 是用于替换匹配结果的文本。


正则表达式

正则表达式通常以(尽管并不总是)/开始和结束。大多数的 ASCII 字符都表示它们本来的含义,但是有一些字符确实具有表示匹配行为的“特殊”含义。不同字符所表示的含义,根据正则表达式的实现方式不同,常见的模式有:

. 除空格之外的”任意单个字符”
\d 代表任意一个数字
\D 代表任意一个非数字
\s 一个空格
\S 任意一个非空格
\w 等价于 [A-Za-z0-9_] 表示英文文本中的一个字符
\W 非\w
* 匹配前面字符零次或多次
+ 匹配前面字符一次或多次
\b 匹配单词和非单词之间的内容,用于匹配整个单词
[abc] 匹配 a, b 和 c 中的任意一个
[^abc] 不是a/b/c的其他任意一个
(RX1|RX2) 任何能够匹配RX1 或 RX2的结果
{m} m个重复
{m,n} m-n个重复
^ 行首
$ 行尾 (这两个用于匹配完整的一行)

sed 的正则表达式有些时候是比较奇怪的,它需要你在这些模式前添加\才能使其具有特殊含义。或者,您也可以添加-E选项来支持这些匹配。
在这里插入图片描述

举例:

lilhoe@LilHoedeMacBook-Pro ~ % echo "aba"|sed 's/[ab]//' # 仅匹配一次
ba
lilhoe@LilHoedeMacBook-Pro ~ % echo "abac"|sed 's/[ab]//g' # 最大匹配
c
lilhoe@LilHoedeMacBook-Pro ~ % echo "abcaba"|sed 's/(ab)*//g' # 不成功 因为sed比较古老刻板,下两种方法修改
abcaba
lilhoe@LilHoedeMacB
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值