【提取文件名中的股票代码和年份】【python】

率真的瓜子

已于 2022-10-24 21:41:16 修改

阅读量601

点赞数

分类专栏：学术论文协作与发表文章标签： python pandas 1024程序员节

于 2022-10-20 22:20:07 首次发布

本文链接：https://blog.csdn.net/tianty1121/article/details/127436269

版权

本文介绍如何使用Python处理文件名，提取股票代码和年份。通过分析不同类型的文件名，删除特定字符串，然后利用正则表达式匹配股票代码，并采用简单方法提取年份。最后，将结果输出到Excel表格，适用于处理包含在dataframe中的文件名。

摘要由CSDN通过智能技术生成

需求：
把如下图所示的文件名中，股票代码code和年份year提取出来
在这里插入图片描述
一个并不是那么准，但也还过的去的提取方法：

1、提取文件名

import glob
csreportlist = glob.glob("C:\\Users\\sz_wh\\Desktop\\【data】\\社会责任报告\\*.pdf")

2、文件名处理

因为分析了文件名的数据，发现有三种很常见的情况：
“2019社会责任报告”
“2019年度社会责任报告”
“2019企业社会责任报告”
这里，先把“企业”删去，就剩下两种情况

# 去除不必要的路径名
csreportlist = [x.split("\\")[-1] for x in csreportlist] 
# 去除“企业”
csreportlist = [x.replace("企业","") for x in csreportlist]

3、提取股票代码和年份

用正则表达式提取股票代码
用粗糙的方法提取年份（此处够用，因为也就1w份不到）

import re
codelist = []
yearlist = []
pdfname = []
for csreport in csreportlist:
	# 用正则表达式提取股票代码
    code = re.findall("[0-9]{6}",csreport)
    year =

最低0.47元/天解锁文章

率真的瓜子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录