python语料库代码_基于Python的语料库数据处理（七）

最新推荐文章于 2022-09-20 19:17:38 发布

陈袅袅呀

最新推荐文章于 2022-09-20 19:17:38 发布

阅读量972

点赞数

文章标签： python语料库代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29416253/article/details/114463261

版权

本文介绍了Python中处理语料库数据时的分组概念，通过示例展示了如何使用分组匹配URL的各个部分。同时讲解了元字符的转义，如何匹配特殊字符如`.`、`w`、`?`，并提供了匹配网址、邮箱、日期的代码示例。最后提到了换行符、回车符和制表符的表示方法。

摘要由CSDN通过智能技术生成

原标题：基于Python的语料库数据处理(七)

《Python玩转语料库数据》专栏· 第7篇

2826字 | 10 分钟阅读

今天我们学习的内容是分组、元字符的转义、回车符、换行符和制表符！

一、分组

有时候我们不需要返回全部检索内容,而需要对检索的内容分几个部分回,这时候就需要用到分组(grouping)。我们可以将需要分开检索返回的部分用圆括弧括起来。比如,我们需要检索出'http:/www.hust.edu.cn.'网址,并分开返回网址的'http'、'www'、'hust'、'edu'、'cn'等部分,就需要用到分组。请看下面的代码。

import re

web = r 'The website of HUST is http://www.hust.edu.cn.'

matched1 = re.findall(r '(http)://(www).(w+).(w+).(w+)', web)

print(matched1) # [('http', 'www', 'hust', 'edu', 'cn')]

print(matched1[0][0]) # http

print(matched1[0][1]) # www

matched2 = re.search(r '(http)://(www).(w+).(w+).(w+)', web)

print(matched2.group(0)) # http://www.hust.edu.cn

print(matched2.group(1)) # http

print(m

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python语料库代码_基于Python的语料库数据处理（七）

原标题：基于Python的语料库数据处理(七)《Python玩转语料库数据》专栏· 第7篇2826字 | 10 分钟阅读今天我们学习的内容是分组、元字符的转义、回车符、换行符和制表符！一、分组有时候我们不需要返回全部检索内容,而需要对检索的内容分几个部分回,这时候就需要用到分组(grouping)。我们可以将需要分开检索返回的部分用圆括弧括起来。比如,我们需要检索出'http:/www.hust....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。