import pdfplumber
import pandas as pd
with pdfplumber.open(r'H:\学位论文相关\数据\中国开发区(2018).pdf') as pdf:
for i in range(0,53):
page = pdf.pages[i]
for row in page.extract_tables():
print(row)
list = pd.DataFrame(data=row)
list.to_csv(r'H:\学位论文相关\数据\中国开发区(2018).csv',mode='a',encoding='utf_8_sig',index=False,header=False)
在使用之前需要pip install pdfplumber,这是个github上的开源项目。
数据来源是由多个部委共同发布的开发区名录,如图所示。原文链接:《中国开发区审核公告目录》(2018年版)_其他_中国政府网