基于正则表达式的提取汉字和数字之文本规范化

最新推荐文章于 2024-04-12 07:33:28 发布

小游园

最新推荐文章于 2024-04-12 07:33:28 发布

阅读量1.8k

点赞数

分类专栏： Python在石油工程中应用智能钻完井油田大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s0302017/article/details/103106948

版权

本文介绍了在大数据处理背景下，如何使用Python进行文本规范化，包括从CAJ和PDF文档中提取信息，处理扫描版文档的噪点，以及使用正则表达式提取汉字、数字和特殊字符。主要涉及的库有docx和re，并提供了文本分句的处理方法。

摘要由CSDN通过智能技术生成

在只能完钻井大数据处理过程中，先期要从多格式非结构化的文献中获取信息，为后期的数据挖掘、处理做准备。由于很多文献都是caj或者pdf格式文档，需要将这些文档转成可编辑的word或者是txt文档，然后才能做数据的提取。然而很多早期的pdf文档为扫描版的，噪点很多。此外caj文档也需要转成pdf，再转成word或者txt格式。在caj或者pdf格式转换到word文档时，在word文档中经常会产生乱码字符。为了后期分类处理中文、数字和特殊字符，需要将中文、数字和特殊字符提取出来，文本规范化模块就是完成该任务。

开发环境：Pycharm2019+Anconda3

编程语言：Python3.7

使用到的库：docx、re

解析要求：

1、特殊字符

2、文本分句

一、正则表达式

1、提取特殊字符

正则表达式：[\u4e00-\u9fa5\^\t?\s\。\、\，\？\：\”\“\d+\.?\d*A-Za-z]+

正则表达式：[\u4e00-\u9fa5\。\、\，\？\：\”\“\d+\

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于正则表达式的提取汉字和数字之文本规范化

在只能完钻井大数据处理过程中，先期要从多格式非结构化的文献中获取信息，为后期的数据挖掘、处理做准备。由于很多文献都是caj或者pdf格式文档，需要将这些文档转成可编辑的word或者是txt文档，然后才能做数据的提取。然而很多早期的pdf文档为扫描版的，噪点很多。此外caj文档也需要转成pdf，再转成word或者txt格式。在caj或者pdf格式转换到word文档时，在word文档中经常会产生乱码字...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。