自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 提取招股说明书|确认书pdf文件中的企业简称与企业全称(附python代码)。

考虑到pdf文件可能会比较大且pdf文件多时,读取的时间会很长,本文选择先提取说明书中的第一节表格中的全部数据,再进行后续的数据处理。数据处理是一个漫长的检查过程,建议读者从每一列开始进行一一排查。

2023-08-17 16:26:31 262 1

原创 企查查批量导出后数据整理——以股东信息为例,并上传至数据库。(附完整代码python)

由于企查查上的企业数据时间线较长,关于最新公示部分的数据列有两种形式,本文选择提取年代较新的部分列,列开头为:序号 股东名称 持股比例 XXX。但是若多次导入数据不设置自增列,导入的数据可能id不为1开始。由于需要区分工商登记数据还是最新公示数据,所以选择将这两部分数据分开存放,当然也可以放在一起。(本文认为最新公示的企业属于上市企业,但是也存在一些未上市却即将上市的企业,工商登记属于未上市企业)。提醒:企查查导出的数据列名随时都存在变化的可能,可能会新增列也可能改变列名,需要对导出的数据进行一个检查。

2023-08-17 16:15:51 1478 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除