上机作业1 : 正则表达式应用
1 实验要求
从因特网上搜索Web页,用wget获取网页,处理网页html文本数据,从中提取出当前时间点北京各监测站的PM2.5浓度,输出如下CSV格式数据。
2021-03-09 13:00:00,海淀区万柳,73
2021-03-09 13:00:00,昌平镇,67
2021-03-09 13:00:00,奥体中心,66
2021-03-09 13:00:00,海淀区万柳,73
2021-03-09 13:00:00,昌平镇,73
2021-03-09 13:00:00,奥体中心,75
撰写实验报告,要求:写出对数据的分析和处理思路,列出各个处理步骤并给出解释。
2 实验过程
2.1 获取数据
2.1.1 获取网页资源
在百度搜索“北京各监测站的PM2.5浓度”,选择http://www.86pm25.com/city/beijing.html
作为筛选目标,页面内容如图所示:
2.1.2 获取网页信息
使用wget
指令将页面保存到本地,可使用ls
指令进行查看:
wget http://www.86pm25.com/city/beijing.html
使用cat
指令使html
中的内容显示在终端并逐行进行分析:
cat beijing.html | more
2.2 筛选数据
2.2.1 提取日期及表格
在查看上述文本文件的时候,发现<div class="remark">更新:2022年03月25日 19时</div>
以及从<tr><td>奥体中心</td>
后面为所需信息,因此用grep
指令对行进行筛选,选出时间信息及地点信息:
cat beijing.html | grep -e '^<tr><td>' -e '更新'
2.2.2 去除标签
删除所有无用标签,使用正则表达式匹配,将所有的标签替换为空格:
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g'
2.2.3 时间行格式细化
在处理数据时发现,原浏览器中更新:2022年03月25日
属于一列信息,故将其替换为更新+空格
,以便后续操作:
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /'
2.2.4 列数据处理
如上图所示,原表格中数据带有单位/μg/m³/
,属于我们不需要的信息,但为了区别数据行与时间行,因此把PM10浓度一列的单位保留,因此只对PM2.5列数据进行操作:
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//'
2.2.5 日期格式处理
使用流编辑的圆括号进行字符串的替换,至此,需要的数据已经全部筛选完成
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g'
2.3 awk文件处理
2.3.1 文件创建
使用vi编辑器创建.awk
文件
vi 1.awk
2.3.2 文件编写
awk
文本文件主要实现两个功能:1.读到更新
这一行时,讲第二列存为date
,第三列存为time
,2.如果遇到含有```g``的行时,打印输出字符串,按照题目所给要求,分别为:日期 时间,地点,PM2.5浓度,执行后的代码如图所示:
/更新/ { date=$2;time=$3;}
/g/ {printf("%s %d:00:00,%s,%s\n",date,time,$1,$3);}
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g' |awk -f 1.awk
2022-03-25 19:00:00,奥体中心,18
2022-03-25 19:00:00,昌平镇,19
2022-03-25 19:00:00,大兴旧宫,21
2022-03-25 19:00:00,定陵(对照点),6
2022-03-25 19:00:00,东四,20
2022-03-25 19:00:00,房山燕山,9
2022-03-25 19:00:00,丰台小屯,18
2022-03-25 19:00:00,丰台云岗,15
2022-03-25 19:00:00,古城,16
2022-03-25 19:00:00,官园,19
2022-03-25 19:00:00,海淀万柳,17
2022-03-25 19:00:00,怀柔新城,18
2022-03-25 19:00:00,怀柔镇,29
2022-03-25 19:00:00,门头沟三家店,12
2022-03-25 19:00:00,密云新城,9
2022-03-25 19:00:00,密云镇,9
2022-03-25 19:00:00,农展馆,20
2022-03-25 19:00:00,平谷新城,12
2022-03-25 19:00:00,顺义新城,20
2022-03-25 19:00:00,天坛,18
2022-03-25 19:00:00,通州东关,18
2022-03-25 19:00:00,万寿西宫,18
2022-03-25 19:00:00,延庆石河营,32
2022-03-25 19:00:00,延庆夏都,32
2.4 csv文件处理
将数据存至csv文件中,将文件传送到本地,在本地打开csv文件进行查看:
cat beijing.html | grep -e '^<tr><td>' -e '更新' | sed -e 's/<[^<>]*>/ /g' -e 's/更新:/更新 /' -e 's/μg\/m³//' -e 's/\([0-9][0-9]*\)年\([0-9][0-9]\)月\([0-9][0-9]\)日/\1-\2-\3/g' |awk -f 1.awk > 1.csv