python语料库代码_基于Python的语料库数据处理(七)

本文介绍了Python中处理语料库数据时的分组概念,通过示例展示了如何使用分组匹配URL的各个部分。同时讲解了元字符的转义,如何匹配特殊字符如`.`、`w`、`?`,并提供了匹配网址、邮箱、日期的代码示例。最后提到了换行符、回车符和制表符的表示方法。
摘要由CSDN通过智能技术生成

原标题:基于Python的语料库数据处理(七)

《Python玩转语料库数据》专栏· 第7篇

2826字 | 10 分钟阅读

今天我们学习的内容是分组、元字符的转义、回车符、换行符和制表符!

一、分组

有时候我们不需要返回全部检索内容,而需要对检索的内容分几个部分回,这时候就需要用到分组(grouping)。我们可以将需要分开检索返回的部分用圆括弧括起来。比如,我们需要检索出'http:/www.hust.edu.cn.'网址,并分开返回网址的'http'、'www'、'hust'、'edu'、'cn'等部分,就需要用到分组。请看下面的代码。

import re

web = r 'The website of HUST is http://www.hust.edu.cn.'

matched1 = re.findall(r '(http)://(www).(w+).(w+).(w+)', web)

print(matched1) # [('http', 'www', 'hust', 'edu', 'cn')]

print(matched1[0][0]) # http

print(matched1[0][1]) # www

matched2 = re.search(r '(http)://(www).(w+).(w+).(w+)', web)

print(matched2.group(0)) # http://www.hust.edu.cn

print(matched2.group(1)) # http

print(m

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值