爬虫攻守道 - 2023最新 - 正则表达式勇猛精进 - 爬取某天气网站历史数据

最新推荐文章于 2024-08-04 23:18:45 发布

biaobro

最新推荐文章于 2024-08-04 23:18:45 发布

阅读量823

点赞数 1

分类专栏： python 文章标签：正则表达式 html 前端代码优化

本文链接：https://blog.csdn.net/biaobro/article/details/128683889

版权

python 专栏收录该内容

10 篇文章 4 订阅

订阅专栏

前言

在正则表达式 - 匹配开头、结尾、中间 - 某天气网站网页源代码分析这篇文章里，我们介绍了如何用正则表达式匹配包含特定样式的Table标签，也就是同时匹配开头、结尾、以及中间。

当你能真正理解这个写法，就会觉得不过是柳暗花明罢了。是的，现实往往如此 —— 屡败屡战的过程最难将书，结果最易轻描淡写，只剩下予取予求的招数变化。

所以接下来，我们要做的就是复制这个成功经验，把之前那些“2步走方案”实现的匹配替换，全部改为“1步到位”方案 —— 性能且不说，我们先追求代码简洁度，开搞。

正文

限定范围精准打击

regex101 网站有提供1个对理解正则表达式运作过程非常有用的工具：Regex Debugger。我简单录了个视频，有兴趣的同学可以自己去研究。

正则表达式运行过程

这里想表达的是，我们可能不需要理解正则的原理，就向开车没必要懂车构造一样。但有一点需要清楚的是：匹配就是寻找，在小范围内寻找一定比在大范围内寻找要快。

基于这个铁律，看下我们的代码逻辑，即使是在剔除“假Table”后，几乎每个正则也还是在做全文匹配，寻找 td，寻找 th 等等等等 —— 而我们的目标范围其实很明确，就是在剩余的这个 “真Table” 中，所以其实没有必要对 html 内 table 外的其他任何内容去做任何匹配了。

我们用1个正则将“真Table” —— <table></table> 标签内的东西提取，保存，将后续所有的匹配限定在这个范围。（其实可以进一步缩小到 <tbody></tbody>，甚至贪婪匹配从第1个 <tr> 到最后1个 </tr>之间）. 得到这样的代码。让 tbm_table 而不是 page_source，成为我们的最新目标。

# limit match scope, table to be matched
regex_tbm_table = r"<tbody>([\s\S]*?)<\/tbody>"
tbm_table = re.findall(regex_tbm_table, page_source)[0]

###
# 中间是对这个 “真table” 的进一步处理
###

# 将处理好的 table 再填充回 html 代码
page_source = re.sub(regex_tbm_table, tbm_table, page_source)

鸟枪换炮重装出击

这篇爬虫攻守道 - 2023最新 - Python Selenium 实现 - 数据去伪存真，正则表达式谁与争锋 - 爬取某天气网站历史数据留下的第1条 Todo ，是我们的第1个目标。

之前为了替换掉包含4种隐藏样式的td，我们先是正则得到td，然后for 循环全部 td，再次正则找出匹配然后 replace 为空。忽略打印测试，我们用了21行代码来达到这个目标。

# 在保留的 table 中匹配出所有的 td
regex_td = r"<td.*?\/td>"
tds = re.findall(regex_td, page_source)
print('{}_{}: total {} tds been found'.format(city, month, len(tds)))


# 将包含 display:none 隐藏样式的 td 其实就是假数据，替换为空
# display:none 是最终效果，实际在代码里是随机字符串，而且好几个，所以先找到 css 定义中内容为 display:none 的样式名称
regex_td_css1 = r"(.*?)\s*{\n\s*display: none;"
class_ndisplays = re.findall(regex_td_css1, page_source)
# print('class_ndisplays', len(class_ndisplays))

# 将包含这些样式的 td 替换为空
for class_ndisplay in class_ndisplays:
	class_ndisplay = class_ndisplay.replace('.', '').strip()

	for td in tds:
		if re.findall(class_ndisplay, td):
			page_source = page_source.replace(td, '')


# 将包含明文 display:none 样式的 td 替换为空
regex_td_css2 = r"display:none"
for td in tds:
	if re.findall(regex_td_css2, td):
		page_source = page_source.replace(td, '')

# 将包含 hidden-lg 隐藏样式的 td 其实就是假数据，替换为空
regex_td_css3 = "hidden-lg"
for td in tds:
	if re.findall(regex_td_css3, td):
		page_source = page_source.replace(td, '')

regex_td_css4 = r"\"hidden\""
for td in tds:
	if re.findall(regex_td_css4, td):
		page_source = page_source.replace(td, '')

让我们看看 21行最终能简化到几行。

第1步：先打出头鸟。

比其他3个样式都复杂的 regex_td_css1，原先的处理逻辑是先根据 css定义的形式 —— {}包裹，以及内容为 display: none 的 —— 反向提取得到名称。然后再到td 范围内匹配 css引用名称，进而替换。

以我目前极为有限的前端知识 —— 提取名称这步是绕不开的，但是css 引用都是定义在 <style></style> 标签内的。所以按照缩小范围精准打击的思路，我们先得到<style></style> 标签内的东西，代号为 tbm_style，然后在这个小范围内得到被引用的 css样式名称，依然是1个随机字符串列表。

再下来，我们用1次 for 循环，在 tbm_table 范围内把这些名称全部替换为和 regex_td_css2 一致的明文 display:none。经过这样“合并”处理后，即使还需要 for 循环全部 td，我们也只需要3次（针对 regex_td_css2，regex_td_css3，regex_td_css4）。于是得到这样的代码：

# 处理 regex_td_css1
# css 引用样式在 <style></style> 中定义
regex_tbm_style = r"<style([\s\S]*?)<\/style>"
tbm_style = re.findall(regex_tbm_style, page_source)[0]

regex_td_css1 = r"(.*?)\s*{\n\s*display: none;"
class_ndisplays = re.findall(regex_td_css1, tbm_style)
# print('class_ndisplays', len(class_ndisplays))

# 将 table 内对这些样式的引用。替换为明文 display:none
# 加1个 total_count 用作调试辅助，观察次数
total_count = 0
for class_ndisplay in class_ndisplays:
	class_ndisplay = class_ndisplay.replace('.', '').strip()
	tbm_table, count = re.subn(class_ndisplay, r'display:none', tbm_table)
	total_count = total_count + count
print('{}_{}: total {} css quotations been replaced.'.format(city, month, total_count))

第2步，鸟枪换炮。

此鸟非彼鸟。直接在全文种寻找满足条件的td，然后re.sub，干掉 for 循环。前提就是写出这种一般人没耐心真看不懂的正则表达式，当然还需要得心应手的测试和验证工具

于是得到这样的代码。不算打印的话，原先每个样式4行代码，现在变成了2行。我们使用13行代码完成了原先21行代码才能完成的工作。

# 形式：class="display:none"
regex_css2_td = r"(?=<td)(?:(?!<\/td>)[\s\S])*?display:none[\s\S]*?<\/td>"
tbm_table, count_css2 = re.subn(regex_css2_td, '', tbm_table)
print('{}_{}: total {} css2:display:none been replaced. {} left.'.format(city, month, count_css2, len(tds)-count_css2))

# 形式：class="hidden-xs hidden-sm hidden-lg hidden-md" —— hidden-lg 是其中之一
regex_css3_td = r"(?=<td)(?:(?!<\/td>)[\s\S])*?hidden-lg[\s\S]*?<\/td>"
tbm_table, count_css3 = re.subn(regex_css3_td, '', tbm_table)
print('{}_{}: total {} css3:hidden-lg been replaced. {} left.'.format(city, month, count_css3, len(tds)-count_css2-count_css3))

# 形式：class="hidden" —— hidden 就1个，所以加上前后引号，否则和 css1 无法区分
regex_css4_td = r"(?=<td)(?:(?!<\/td>)[\s\S])*?\"hidden\"[\s\S]*?<\/td>"
tbm_table, count_css4 = re.subn(regex_css4_td, '', tbm_table)
print('{}_{}: total {} css4:hidden been replaced. {} left.'.format(city, month, count_css4, len(tds)-count_css2-count_css3-count_css4))

更进一步，还有1种更为牛逼、更为疯狂的写法，re.subn 的第1个参数支持多种不同的匹配规则，中间以 | 分隔，这样最终的有效代码行数来到了12行。

# 形式：class="display:none"
regex_css_rule2 = r"(?=<td)(?:(?!<\/td>)[\s\S])*?display:none[\s\S]*?<\/td>"

# 形式：class="hidden-xs hidden-sm hidden-lg hidden-md" —— hidden-lg 是其中之一
regex_css_rule3 = r"(?=<td)(?:(?!<\/td>)[\s\S])*?hidden-lg[\s\S]*?<\/td>"

# 形式：class="hidden" —— hidden 就1个，所以加上前后引号，否则和 css1 无法区分
regex_css_rule4 = r"(?=<td)(?:(?!<\/td>)[\s\S])*?\"hidden\"[\s\S]*?<\/td>"

regex_css_invincible = regex_css_rule2 + '|' + regex_css_rule3 + '|' + regex_css_rule4
tbm_table, total_count = re.subn(regex_css_invincible, '', tbm_table)
print('{}_{}: {} hidden css been replaced.'.format(city, month, total_count))

其他诸如 th 替换成 td，span 替换的正常逻辑保留不变。

为了调试需要，我们还是保留了对 td 的匹配，但是现在只是为了统计处理前后的数量变化，不再参与替换。最终用于处理 table 的终极代码如下 —— 记忆力不好，写了很多注释，大家谅解。

start_time = time.time()
print("{}_{} html page source get successfully,process start".format(city, month))

# 为了便于对照，根据拿到 page_source 的时间，先保留1份原始文本，
response_time = time.strftime("%Y%m%d%H%M%S")
with open("{}_{}_{}_original.html".format(city, month, response_time), 'w', encoding='utf-8') as f:
	f.write(page_source)

# 可以先移除Script 中的eval，否则太长了，移除后 size 会减少很多
# 正则匹配也是运算，应该尽可能减小匹配范围
regex_script = r"eval\(.*"
page_source = re.sub(regex_script, '', page_source)

# 样式中没有设置 position 的Table，就是包含真实数据的，保留
# 另外2个 替换为空，使用一步到位的正则表达式
re_one_step = r"(?=<table)(?:(?!>)[\s\S])*?position[\s\S]*?(?<=<\/table>)"
page_source, count = re.subn(re_one_step, '', page_source)
print('{}_{}: {} fake tables been removed.'.format(city, month, count))

with open("{}_{}_{}_removefaketable.html".format(city, month, response_time), 'w', encoding='utf-8') as f:
	f.write(page_source)

# limit match scope, table to be matched
regex_tbm_table = r"<tbody>([\s\S]*?)<\/tbody>"
tbm_table = re.findall(regex_tbm_table, page_source)[0]

###
# 中间是对这个 “真table” 的进一步处理
###
# 表头也是包含了伪造数据的，也需要剔除 表头通过2种形式提供，
# 一种是放在 td 里的，可以和数据一起处理
# 另一种是放在 th 里，所以还需要增加 th 的匹配判断
# 保留下来的 Table 中， td 是一定有的，th 不一定有
# 最简单的方式就是把 th 替换为 td，这样就不用在 th 里依次判断4种隐藏样式
regex_th = r"<th(.*?)th>"

# 无论最终是否执行替换，正则匹配都会执行。所以可以直接执行 re.subn
# 正则匹配后得到match，如果其中有闭合的()，就会生成 group
# 正则将<thth>之间的内容匹配出来，得到分组，用\1表示
# 将匹配结果，保留分组内容，两端替换为td的开合标签
tbm_table, count = re.subn(regex_th, r"<td\1td>", tbm_table)
if count > 0:
	print(
		'{}_{}: field names been found in <th></th>, {} ths been replaced.'.format(city, month, count))

# 在保留的 table 中匹配出所有的 td
# 在经过终极优化的代码中，这部分已经没有必要了，这里保留为了调试观察
regex_td = r"<td.*?\/td>"
tds = re.findall(regex_td, tbm_table)
print('{}_{}: {} tds been found'.format(city, month, len(tds)))

# 处理 regex_td_css1
# css 引用样式在 <style></style> 中定义
regex_tbm_style = r"<style([\s\S]*?)<\/style>"
tbm_style = re.findall(regex_tbm_style, page_source)[0]

regex_css_rule1 = r"(.*?)\s*{\n\s*display: none;"
class_ndisplays = re.findall(regex_css_rule1, tbm_style)
# print('class_ndisplays', len(class_ndisplays))

# 将 table 内对这些样式的引用。替换为明文 display:none
total_count = 0
for class_ndisplay in class_ndisplays:
	class_ndisplay = class_ndisplay.replace('.', '').strip()
	tbm_table, count = re.subn(class_ndisplay, r'display:none', tbm_table)
	total_count = total_count + count
print('{}_{}: {} css1:quotation been replaced to css2.'.format(city, month, total_count))

# 形式：class="display:none"
regex_css_rule2 = r"(?=<td)(?:(?!<\/td>)[\s\S])*?display:none[\s\S]*?<\/td>"
# tbm_table, count_css2 = re.subn(regex_css_rule2, '', tbm_table)
# print('{}_{}: {} css2:display:none been replaced to empty. {} left.'.format(city, month, count_css2, len(tds)-count_css2))

# 形式：class="hidden-xs hidden-sm hidden-lg hidden-md" —— hidden-lg 是其中之一
regex_css_rule3 = r"(?=<td)(?:(?!<\/td>)[\s\S])*?hidden-lg[\s\S]*?<\/td>"
# tbm_table, count_css3 = re.subn(regex_css_rule3, '', tbm_table)
# print('{}_{}: {} css3:hidden-lg been replaced to empty. {} left.'.format(city, month, count_css3, len(tds)-count_css2-count_css3))

# 形式：class="hidden" —— hidden 就1个，所以加上前后引号，否则和 css1 无法区分
regex_css_rule4 = r"(?=<td)(?:(?!<\/td>)[\s\S])*?\"hidden\"[\s\S]*?<\/td>"
# tbm_table, count_css4 = re.subn(regex_css_rule4, '', tbm_table)
# print('{}_{}: {} css4:hidden been replaced to empty. {} left.'.format(city, month, count_css4, len(tds)-count_css2-count_css3-count_css4))

regex_css_invincible = regex_css_rule2 + '|' + regex_css_rule3 + '|' + regex_css_rule4
tbm_table, total_count = re.subn(regex_css_invincible, '', tbm_table)
print('{}_{}: {} hidden css been replaced.'.format(city, month, total_count))

# 质量等级 是在 td 内部又包了1层 span 标签，为了和其他数据统一逻辑，
# 我们把包含span 的 td 找出来，直接替换成 <td>质量等级</td>
# 正则会得到3个分组，质量等级文本是第3个分组
regex_span = r"(?=<td)((?!<\/td>)[\s\S])*(<span[\s\S]*?>(.*?)<\/span>)<\/td>"
tbm_table, count = re.subn(regex_span, r'<td>\3</td>', tbm_table)
print('{}_{}: {} spans been processed'.format(city, month, count))

# 可选，再次匹配得到的是包含真实数据的 td 数量
# 经过前面的处理，得到的有效td 数量应该固定为 （天数 + 表头）* 9列
# (31 + 1)*9 = 288 或者 (30+1)*9 = 279
regex_td = r"<td.*?\/td>"
tds_real = re.findall(regex_td, tbm_table)
print('{}_{}: {} tds which contain real data been left'.format(city, month, len(tds_real)))

# 将处理好的 table 再填充回 html 代码
page_source = re.sub(regex_tbm_table, tbm_table, page_source)

# 把 处理好后的 page_source 写入本地文件
with open("{}_{}_{}_purified.html".format(city, month, response_time), 'w', encoding='utf-8') as f:
	f.write(page_source)

end_time = time.time()
print("{}_{}: html page source get successfully,process finished within {}s".format(city, month, end_time-start_time))