BUPT Linux上机作业1:正则表达式应用

上机作业1 : 正则表达式应用

1 实验要求

​ 从因特网上搜索Web页,用wget获取网页,处理网页html文本数据,从中提取出当前时间点北京各监测站的PM2.5浓度,输出如下CSV格式数据。

2021-03-09 13:00:00,海淀区万柳,73
2021-03-09 13:00:00,昌平镇,67
2021-03-09 13:00:00,奥体中心,66
2021-03-09 13:00:00,海淀区万柳,73
2021-03-09 13:00:00,昌平镇,73
2021-03-09 13:00:00,奥体中心,75

​ 撰写实验报告,要求:写出对数据的分析和处理思路,列出各个处理步骤并给出解释。

2 实验过程

2.1 获取数据

2.1.1 获取网页资源

​ 在百度搜索“北京各监测站的PM2.5浓度”,选择http://www.86pm25.com/city/beijing.html作为筛选目标,页面内容如图所示:
在这里插入图片描述

2.1.2 获取网页信息

​ 使用wget指令将页面保存到本地,可使用ls指令进行查看:

wget http://www.86pm25.com/city/beijing.html

在这里插入图片描述

​ 使用cat指令使html中的内容显示在终端并逐行进行分析:

cat beijing.html | more

在这里插入图片描述

在这里插入图片描述

2.2 筛选数据

2.2.1 提取日期及表格

​ 在查看上述文本文件的时候,发现<div class="remark">更新:2022年03月25日 19时</div>以及从<tr><td>奥体中心</td>后面为所需信息,因此用grep指令对行进行筛选,选出时间信息及地点信息:

cat beijing.html | grep -e '^<tr><td>' -e '更新'

在这里插入图片描述

2.2.2 去除标签

​ 删除所有无用标签,使用正则表达式匹配,将所有的标签替换为空格:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g'

在这里插入图片描述

2.2.3 时间行格式细化

​ 在处理数据时发现,原浏览器中更新:2022年03月25日属于一列信息,故将其替换为更新+空格,以便后续操作:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /'

在这里插入图片描述

2.2.4 列数据处理

​ 如上图所示,原表格中数据带有单位/μg/m³/,属于我们不需要的信息,但为了区别数据行与时间行,因此把PM10浓度一列的单位保留,因此只对PM2.5列数据进行操作:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//'

在这里插入图片描述

2.2.5 日期格式处理

​ 使用流编辑的圆括号进行字符串的替换,至此,需要的数据已经全部筛选完成

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g'

在这里插入图片描述

2.3 awk文件处理

2.3.1 文件创建

​ 使用vi编辑器创建.awk文件

vi 1.awk
2.3.2 文件编写

awk文本文件主要实现两个功能:1.读到更新这一行时,讲第二列存为date,第三列存为time,2.如果遇到含有```g``的行时,打印输出字符串,按照题目所给要求,分别为:日期 时间,地点,PM2.5浓度,执行后的代码如图所示:

/更新/ { date=$2;time=$3;}
/g/ {printf("%s %d:00:00,%s,%s\n",date,time,$1,$3);}
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g' |awk -f 1.awk

在这里插入图片描述

在这里插入图片描述

2022-03-25 19:00:00,奥体中心,18
2022-03-25 19:00:00,昌平镇,19
2022-03-25 19:00:00,大兴旧宫,21
2022-03-25 19:00:00,定陵(对照点),6
2022-03-25 19:00:00,东四,20
2022-03-25 19:00:00,房山燕山,9
2022-03-25 19:00:00,丰台小屯,18
2022-03-25 19:00:00,丰台云岗,15
2022-03-25 19:00:00,古城,16
2022-03-25 19:00:00,官园,19
2022-03-25 19:00:00,海淀万柳,17
2022-03-25 19:00:00,怀柔新城,18
2022-03-25 19:00:00,怀柔镇,29
2022-03-25 19:00:00,门头沟三家店,12
2022-03-25 19:00:00,密云新城,9
2022-03-25 19:00:00,密云镇,9
2022-03-25 19:00:00,农展馆,20
2022-03-25 19:00:00,平谷新城,12
2022-03-25 19:00:00,顺义新城,20
2022-03-25 19:00:00,天坛,18
2022-03-25 19:00:00,通州东关,18
2022-03-25 19:00:00,万寿西宫,18
2022-03-25 19:00:00,延庆石河营,32
2022-03-25 19:00:00,延庆夏都,32

2.4 csv文件处理

​ 将数据存至csv文件中,将文件传送到本地,在本地打开csv文件进行查看:

cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g' |awk -f 1.awk > 1.csv

在这里插入图片描述

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
毕业设计是高等教育阶段学生在完成学业前所进行的一项重要学术任务,旨在检验学生通过学习所获得的知识、技能以及对特定领域的深刻理解能力。这项任务通常要求学生运用所学专业知识,通过独立研究和创新,完成一个实际问题的解决方案或者开展一项有价值的项目。 首先,毕业设计的选择通常由学生根据个人兴趣、专业方向以及实际需求来确定。学生需要在导师的指导下明确研究目标、问题陈述,确立研究的范围和深度。毕业设计可以包括文献综述、需求分析、方案设计、实施与测试等多个阶段,以确保整个过程的科学性和系统性。 其次,毕业设计的完成通常需要学生具备一定的独立思考和解决问题的能力。在研究过程中,学生可能需要采用各种研究方法,如实验、调查、案例分析等,以获取必要的数据和信息。通过这些活动,学生能够培养扎实的专业技能,提升解决实际问题的实际能力。 第三,毕业设计的撰写是整个过程的重要组成部分。学生需要将研究过程、方法、结果以及结论等详细记录在毕业论文中,以展示其研究的全貌和成果。同时,撰写毕业设计还有助于提高学生的学术写作水平,培养清晰、逻辑的表达能力。 最后,毕业设计的评价通常由导师和相关专业人士进行。评价标准包括研究的创新性、实用性、方法的科学性以及论文的质量等方面。学生在毕业设计中获得的成绩也将直接影响其最终的学业成绩和学位授予。 总的来说,毕业设计是高等教育中的一项重要环节,通过此过程,学生不仅能够巩固所学知识,还能培养独立思考和解决问题的能力,为将来的职业发展奠定坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值