从文本中提取特定信息

尝试了两种方法,正则表达式提取效果更佳

#! /usr/bin/env python
# -*- coding: utf-8 -*-


'''
方法1:采用位置参数来提取,效果不佳
'''
##file_data=[]
##with open('待处理文字.txt',encoding='utf-8') as f:
##    data=f.read().split('  ')
##    file={}
##    while(len(data)):
##        file['name']=data.pop(0)
##        file['director']=data.pop(0)
##        file['actor']=data.pop(0)
##        file_data.append(dict(file))
##with open('电影列表.txt','w') as f:
##    for file in file_data:
##        f.write(file['name']+'\n')
##        f.write(file['director']+'\n')
##        f.write(file['actor']+'\n')

'''
方法2:采用正则表达式,提取很好。
'''
import re
pattern=re.compile(r'\d{1,3}(?P<name>\S+)  导演:(?P<director>[\S ]+)  主演:(?P<actor>[\S ]+)')
with open('待处理文字.txt',encoding='utf-8') as f:
    data=f.read()
with open('电影列表.txt','w') as f:
    for index,(name,director,actor) in enumerate(pattern.findall(data)):
        f.write('No:'+str(index+1)+'\n')
        f.write('片名:'+name+'\n')
        f.write('导演:'+director+'\n')
        f.write('演员:'+actor+'\n')
##        print('No:'+str(index+1))
##        print('片名:'+name)
##        print('导演:'+director)
##        print('演员:'+actor)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值