python正则只保留中文_正则表达式在工作中的使用案例

本文通过两个实际案例展示了正则表达式在数据处理中的高效性。案例一利用Word的替换功能,结合正则表达式提取括号内的内容;案例二介绍了在线正则表达式工具在Python爬虫数据清洗中的应用,为后续的Python正则表达式学习埋下伏笔。
摘要由CSDN通过智能技术生成
97d00e99efb34b99077f986f19ec9df4.png

前言

上次我们学习了正则表达式的使用,那今天就以两个现实中的问题为例,来看看正则表达式的妙用,以此来提升工作效率。

案例一

如图,我们需要从基础数据中提取各种括号内的内容,这里有多种括号,有中文的小括号,还有英文的小括号和<>。如果用Excel中的函数的话也能实现,但是很复杂,我们这里用正则表达式来实现。

6dd27b325ca998b8d0a30832dab3575e.png

(1)将表格中的内容复制到word中,记得粘贴时,使用只保留文本。

04b5ba0ed9d2ef0a6f05ea7f03defe7f.png

(2)使用Ctrl+H调出替换窗口,使用通配符(这里其实就是使用正则表达式,但是需要注意的是,word中的正则表达式元字符有限,有些字符是没法使用的),在查找内容中输入:

[<>()\(\)]

在替换窗口中输入^t。

94813163839fc52ea8dc3f3dccbe694b.png
74e352a3cbb3abc9738436b134014308.png

这里解释下[<>()\(\)]含义,中括号的意思就是匹配中括号内任意的字符,由于英文的小括号代表提取的意思,所以前面要加上\,用于转义。

这样就能把这些括号,全部替换为制表符。

(3)最后,复制到Excel中即可。

2b6ad71bd621d9c16e2a0296a4bb0854.png

案例二

上文中为了使用正则表达式,需要在word中使用,其一比较麻烦,其二word中正则表达式的功能也不强大。所以要使用更复杂的功能,就需要使用编程语言了。

下次我们再详细讲解Python正则表达式,这次我们在在线网站上使用正则表达式(https://regex101.com/)。

在爬虫中,爬取的信息如下:

高楼层(第9层)|2013年建|3室1厅|南北

我们需要清洗为:

9 2013 3室1厅 南北

通过下面代码即可:

第(\d+)层\)\|(\d{4})年建\|(\d室\d厅)\|([东西南北]+)
7715c69c8161f5889859dd298224f281.png

今天的内容就到这啦,下期详细分享Python正则表达式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值