2023 年“泰迪杯”数据分析技能赛B 题企业财务数据分析与造假识别
一、背景
财务数据是指企业经营活动和财务结果的数据记录,反映了企业的财务状况与经营成果。对行业、企业的财务数据进行分析,就是要评价其过去的经营业绩、衡量现在的财务状况、预测未来的发展趋势。财务数据分析不仅对企业生产经营管理有着重要的作用,而且对企业外部投资、贷款、赊销等决策有重要作用;经济管理部门也可以通过财务数据分析了解行业经济的运行状况,合理配置资源,科学调控经济运行,促进经济高质量发展。而财务造假则会对企业、投资者和整个市场带来极大的危害,准确甄别财务造假企业,帮助投资者识别风险,促进企
业诚信经营,对营造良性的市场竞争环境有非常重要的现实意义。
二、目标
- 财务数据预处理。
- 财务数据指标分析及可视化。
- 建立企业利润预测模型,预测企业营收情况;并根据财务报表数据的特点,筛查财务造假的企业。
三、任务
请根据提供的数据,选择分析工具完成以下任务,并撰写报告。
任务 1 财务数据处理
任务 1.1
读取“LR.csv”,提取表 1 中所列字段的数据,筛选出字段“Typrep”值为“A”的数据,将筛选出的数据另存为文件“LR_1.csv”(文件编码设置为
UTF-8),并在报告中呈现筛选后的数据行数、列数。
df1_1 = pd.read_csv('数据/LR.csv')
df1_1.head()
# 提取表 1 中所列字段的数据
df1_1 = df1_1[[
'Stkcd', 'Accper', 'Typrep', 'B001000000', 'B001100000', 'B001101000',
'B001200000', 'B001201000', 'B001207000', 'B001209000', 'B001210000',
'B001211000', 'B001212000', 'B001303000', 'B002300000'
]]
df1_1 = df1_1[df1_1['Typrep'] == 'A'] # 筛选出字段“Typrep”值为“A”的数据
df1_1.reset_index(inplace=True, drop=True) # 重置索引
df1_1
df1_1.to_csv('LR_1.csv',encoding='utf-8',index=False)
筛选后的数据行数: 33414
筛选后的数据列数: 15
任务 1.2
读取“LR_1.csv”、“ZCFZ.csv”、“Stk_ind.csv”三个数据文件。
根据“Stkcd”、“Accper”和“Typrep”三个字段,提取“ZCFZ.csv”中字段为“A002000000”和“A001000000”的相应数据,合并到“LR_1.csv”中。根据字段“Stkcd”,提取“Stk_ind.csv”中字段为“Indnme”和“Nindnme”的相应数据,合并到“LR_1.csv”中。将完成合并的数据另存为文件“LR_2.csv”(文件编码设置为 UTF-8),并在报告中呈现合并后数据的行数、列数。
df1_2_1 = pd.read_csv('LR_1.csv')
df1_2_1.head()
df1_2_2 = pd.read_csv('数据/ZCFZ.csv')
df1_2_2.head()
df1_2_3 = pd.read_csv('数据/Stk_ind.csv',encoding='gbk')
df1_2_3.head()
df1_2_2 = df1_2_2[['Stkcd','Accper','Typrep','A002000000','A001000000']]
df1_2_2
# 左连接,连接字段为'Stkcd','Accper','Typrep'
data = df1_2_1.merge(df1_2_2,how='left',on=['Stkcd','Accper','Typrep'])
data
data1_2_2_1 = data1_2_2[["Stkcd", "Accper", "Typrep","A002000000", "A001000000"]]