- 博客(2)
- 收藏
- 关注
原创 提取招股说明书|确认书pdf文件中的企业简称与企业全称(附python代码)。
考虑到pdf文件可能会比较大且pdf文件多时,读取的时间会很长,本文选择先提取说明书中的第一节表格中的全部数据,再进行后续的数据处理。数据处理是一个漫长的检查过程,建议读者从每一列开始进行一一排查。
2023-08-17 16:26:31 262 1
原创 企查查批量导出后数据整理——以股东信息为例,并上传至数据库。(附完整代码python)
由于企查查上的企业数据时间线较长,关于最新公示部分的数据列有两种形式,本文选择提取年代较新的部分列,列开头为:序号 股东名称 持股比例 XXX。但是若多次导入数据不设置自增列,导入的数据可能id不为1开始。由于需要区分工商登记数据还是最新公示数据,所以选择将这两部分数据分开存放,当然也可以放在一起。(本文认为最新公示的企业属于上市企业,但是也存在一些未上市却即将上市的企业,工商登记属于未上市企业)。提醒:企查查导出的数据列名随时都存在变化的可能,可能会新增列也可能改变列名,需要对导出的数据进行一个检查。
2023-08-17 16:15:51 1478 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人