最近的工作主要是对一些pdf格式的非结构化数据,通过自然语言处理,机器学习的算法提取出结构化的数据。
其中对PDF文件中的文本信息提取,是整个工程中的基础,直接决定了整个算法抽取的效果。本文会分享一些工作中的尝试。
PDF转xml
主要依赖于 https://github.com/houking-can/PDFConverter 是使用Adobe DC SDK将pdf转换成其他格式的工具,对比下来转换效果要略好于pdfminer的效果
首先要下载Adobe DC python环境依赖如下:
- python3.5+
- pip install pywin32==223
- BeautifulSoup4
- docx
- xlrd
- lxml
PDF转TXT
pip install pdfminer3k
使用pdfminer,这部分网上代码很多
ToDo
详细介绍保险条款的转换