BUPT Linux上机作业1:正则表达式应用

上机作业1 : 正则表达式应用

1 实验要求

​ 从因特网上搜索Web页,用wget获取网页,处理网页html文本数据,从中提取出当前时间点北京各监测站的PM2.5浓度,输出如下CSV格式数据。

2021-03-09 13:00:00,海淀区万柳,73
2021-03-09 13:00:00,昌平镇,67
2021-03-09 13:00:00,奥体中心,66
2021-03-09 13:00:00,海淀区万柳,73
2021-03-09 13:00:00,昌平镇,73
2021-03-09 13:00:00,奥体中心,75

​ 撰写实验报告,要求:写出对数据的分析和处理思路,列出各个处理步骤并给出解释。

2 实验过程

2.1 获取数据

2.1.1 获取网页资源

​ 在百度搜索“北京各监测站的PM2.5浓度”,选择http://www.86pm25.com/city/beijing.html作为筛选目标,页面内容如图所示:
在这里插入图片描述

2.1.2 获取网页信息

​ 使用wget指令将页面保存到本地,可使用ls指令进行查看:

wget http://www.86pm25.com/city/beijing.html

在这里插入图片描述

​ 使用cat指令使html中的内容显示在终端并逐行进行分析:

cat beijing.html | more

在这里插入图片描述

在这里插入图片描述

2.2 筛选数据

2.2.1 提取日期及表格

​ 在查看上述文本文件的时候,发现<div class="remark">更新:2022年03月25日 19时</div>以及从<tr><td>奥体中心</td>后面为所需信息,因此用grep指令对行进行筛选,选出时间信息及地点信息:

cat beijing.html | grep -e '^<tr><td>' -e '更新'

在这里插入图片描述

2.2.2 去除标签

​ 删除所有无用标签,使用正则表达式匹配,将所有的标签替换为空格:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g'

在这里插入图片描述

2.2.3 时间行格式细化

​ 在处理数据时发现,原浏览器中更新:2022年03月25日属于一列信息,故将其替换为更新+空格,以便后续操作:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /'

在这里插入图片描述

2.2.4 列数据处理

​ 如上图所示,原表格中数据带有单位/μg/m³/,属于我们不需要的信息,但为了区别数据行与时间行,因此把PM10浓度一列的单位保留,因此只对PM2.5列数据进行操作:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//'

在这里插入图片描述

2.2.5 日期格式处理

​ 使用流编辑的圆括号进行字符串的替换,至此,需要的数据已经全部筛选完成

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g'

在这里插入图片描述

2.3 awk文件处理

2.3.1 文件创建

​ 使用vi编辑器创建.awk文件

vi 1.awk
2.3.2 文件编写

awk文本文件主要实现两个功能:1.读到更新这一行时,讲第二列存为date,第三列存为time,2.如果遇到含有```g``的行时,打印输出字符串,按照题目所给要求,分别为:日期 时间,地点,PM2.5浓度,执行后的代码如图所示:

/更新/ { date=$2;time=$3;}
/g/ {printf("%s %d:00:00,%s,%s\n",date,time,$1,$3);}
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g' |awk -f 1.awk

在这里插入图片描述

在这里插入图片描述

2022-03-25 19:00:00,奥体中心,18
2022-03-25 19:00:00,昌平镇,19
2022-03-25 19:00:00,大兴旧宫,21
2022-03-25 19:00:00,定陵(对照点),6
2022-03-25 19:00:00,东四,20
2022-03-25 19:00:00,房山燕山,9
2022-03-25 19:00:00,丰台小屯,18
2022-03-25 19:00:00,丰台云岗,15
2022-03-25 19:00:00,古城,16
2022-03-25 19:00:00,官园,19
2022-03-25 19:00:00,海淀万柳,17
2022-03-25 19:00:00,怀柔新城,18
2022-03-25 19:00:00,怀柔镇,29
2022-03-25 19:00:00,门头沟三家店,12
2022-03-25 19:00:00,密云新城,9
2022-03-25 19:00:00,密云镇,9
2022-03-25 19:00:00,农展馆,20
2022-03-25 19:00:00,平谷新城,12
2022-03-25 19:00:00,顺义新城,20
2022-03-25 19:00:00,天坛,18
2022-03-25 19:00:00,通州东关,18
2022-03-25 19:00:00,万寿西宫,18
2022-03-25 19:00:00,延庆石河营,32
2022-03-25 19:00:00,延庆夏都,32

2.4 csv文件处理

​ 将数据存至csv文件中,将文件传送到本地,在本地打开csv文件进行查看:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g' |awk -f 1.awk > 1.csv

在这里插入图片描述

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
bupt linux上机作业2 是一项关于Linux操作系统的实践作业,要求对Linux系统进行操作和管理。以下是针对该作业的回答: bupt linux上机作业2 主要涉及以下几个方面的内容: 1. 基本命令的使用:在Linux系统中,我们可以使用一些基本的命令来进行文件和目录的操作,如ls、cd、mkdir、rm等。这些命令的使用是我们平时操作Linux系统的基础,要求掌握它们的基本用法。 2. 文件权限的设置:在Linux系统中,每个文件和目录都有自己的权限,包括读、写、执行等。在这个作业中,我们需要学会如何使用chmod命令来设置文件和目录的权限,以保护系统的安全性。 3. 进程管理和任务调度:Linux系统中的进程管理和任务调度是非常重要的内容。在这个作业中,可以通过使用ps、kill等命令来查看和管理系统中的进程,以及使用cron命令来设置定时任务。 4. 软件包的安装和管理:Linux系统中有很多开源软件包可以供我们使用。在这个作业中,可以学习如何使用apt-get或yum等包管理器来安装和管理软件包,以满足系统中各种软件的需求。 通过完成bupt linux上机作业2,我们可以加深对Linux操作系统的理解和掌握,提升对Linux系统的管理能力。这对于计算机相关专业的学生来说是非常有益的,也是日后工作中可能会用到的技能。希望以上回答能对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值