【提取文件名中的股票代码和年份】【python】

需求:
把如下图所示的文件名中,股票代码code和年份year提取出来
在这里插入图片描述
一个并不是那么准,但也还过的去的提取方法:

1、提取文件名

import glob
csreportlist = glob.glob("C:\\Users\\sz_wh\\Desktop\\【data】\\社会责任报告\\*.pdf")

2、文件名处理

因为分析了文件名的数据,发现有三种很常见的情况:
“2019社会责任报告”
“2019年度社会责任报告”
“2019企业社会责任报告”
这里,先把“企业”删去,就剩下两种情况

# 去除不必要的路径名
csreportlist = [x.split("\\")[-1] for x in csreportlist] 
# 去除“企业”
csreportlist = [x.replace("企业","") for x in csreportlist]

3、提取股票代码和年份

用正则表达式提取股票代码
用粗糙的方法提取年份(此处够用,因为也就1w份不到)

import re
codelist = []
yearlist = []
pdfname = []
for csreport in csreportlist:
	# 用正则表达式提取股票代码
    code = re.findall("[0-9]{6}",csreport)
    year = csrep
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值