基于正则表达式的提取汉字和数字之文本规范化

本文介绍了在大数据处理背景下,如何使用Python进行文本规范化,包括从CAJ和PDF文档中提取信息,处理扫描版文档的噪点,以及使用正则表达式提取汉字、数字和特殊字符。主要涉及的库有docx和re,并提供了文本分句的处理方法。
摘要由CSDN通过智能技术生成

在只能完钻井大数据处理过程中,先期要从多格式非结构化的文献中获取信息,为后期的数据挖掘、处理做准备。由于很多文献都是caj或者pdf格式文档,需要将这些文档转成可编辑的word或者是txt文档,然后才能做数据的提取。然而很多早期的pdf文档为扫描版的,噪点很多。此外caj文档也需要转成pdf,再转成word或者txt格式。在caj或者pdf格式转换到word文档时,在word文档中经常会产生乱码字符。为了后期分类处理中文、数字和特殊字符,需要将中文、数字和特殊字符提取出来,文本规范化模块就是完成该任务。

开发环境:Pycharm2019+Anconda3

编程语言:Python3.7

使用到的库:docx、re

解析要求:

1、特殊字符

2、文本分句

一、正则表达式

1、提取特殊字符

正则表达式:[\u4e00-\u9fa5\^\t?\s\。\、\,\?\:\”\“\d+\.?\d*A-Za-z]+

正则表达式:[\u4e00-\u9fa5\。\、\,\?\:\”\“\d+\

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值