“ 正则表达式是文本处理中的利器,需要不断练习才能熟练掌握,在掌握了语法的基础上还需灵活运用,本文通过具体例子讲解如何在openrefine中运用正则表达式来提取信息。
”
1.网页中的数据介绍
在网页中有F1分站赛的处罚信息,这些信息以条目的形式出现,我们的目的是:在openrefine中,将这些条目数据利用正则表达式提取出来,生成结构化表格,以便于后期的分析。
2.新建refine项目,选择剪切板的方式,将数据粘贴过来
3.去掉空白行
4.数据清洗
4.1生成包含比赛名称的列
if(value.contains('Prix'),value,"")
#根据Column1列新建一列 命名为race列
#contains(value,"Prix")返回的是TRUE or False,如果字符串中包含Prix字符,返回True&#