在只能完钻井大数据处理过程中,先期要从多格式非结构化的文献中获取信息,为后期的数据挖掘、处理做准备。由于很多文献都是caj或者pdf格式文档,需要将这些文档转成可编辑的word或者是txt文档,然后才能做数据的提取。然而很多早期的pdf文档为扫描版的,噪点很多。此外caj文档也需要转成pdf,再转成word或者txt格式。在caj或者pdf格式转换到word文档时,在word文档中经常会产生乱码字符。为了后期分类处理中文、数字和特殊字符,需要将中文、数字和特殊字符提取出来,文本规范化模块就是完成该任务。
开发环境:Pycharm2019+Anconda3
编程语言:Python3.7
使用到的库:docx、re
解析要求:
1、特殊字符
2、文本分句
一、正则表达式
1、提取特殊字符
正则表达式:[\u4e00-\u9fa5\^\t?\s\。\、\,\?\:\”\“\d+\.?\d*A-Za-z]+
正则表达式:[\u4e00-\u9fa5\。\、\,\?\:\”\“\d+\