【python】正则表达式处理文章,结构化和提炼大意方法1

38 篇文章 0 订阅
19 篇文章 0 订阅
>>> import re
>>> end = re.compile(r'[u4e00-\u9fa5].$')
>>> start = re.compile(r'[u4e00-\u9fa5].')
>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     print(s,e)
...
<_sre.SRE_Match object; span=(0, 2), match='切图'> <_sre.SRE_Match object; span=(0, 2), match='切图'>
None None
<_sre.SRE_Match object; span=(1, 3), match='广东'> <_sre.SRE_Match object; span=(14, 16), match='协会'>
None None
<_sre.SRE_Match object; span=(36, 38), match='粤教'> <_sre.SRE_Match object; span=(47, 49), match='1号'>
None None

---------------------------------------------------------------------------

报错:

>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     print(s.group())
...     print(e.group())
...
切图
切图
Traceback (most recent call last):
  File "<stdin>", line 5, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

-----------------------------------------------

参考:https://blog.csdn.net/love_dl_forever/article/details/78857030 跳过异常继续运行

        https://zhidao.baidu.com/question/618075492622487932.html

>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     try:
...       print(s.group())
...       print(e.group())
...     except:
...       print('wrong')
...
切图
切图
wrong
广东
协会
wrong
粤教
1号
wrong
广东

----------------------------------------------------------------------

>>> end = re.compile(r'[u4e00-\u9fa5]..$')
>>> start = re.compile(r'[u4e00-\u9fa5].')
>>> with open('E:/切图.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     try:
...       print(s.group())
...       print(e.group())
...     except:
...       print('wrong')
...
切图
wrong
wrong
广东
家协会
wrong
粤教
61号
wrong
广东
的通知
wrong
各普
>>> with open('E:/序言.txt','r')as f:
...   for line in f:
...     s = start.search(line)
...     e = end.search(line)
...     try:
...       print(s.group()+e.group())
...     except:
...       print(' ')
...
美国版序言



  历史。
这种要性;
很少子了。
企图时代。
最后分的。
本书授过。
正如过我。

伯特·罗素
>>>



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值