Python去除中文文本中的特殊字符

农民小飞侠

已于 2023-11-16 21:45:07 修改

阅读量581

点赞数

文章标签： python 开发语言

于 2023-11-16 21:44:31 首次发布

本文链接：https://blog.csdn.net/w5688414/article/details/134451523

版权

最近需要去除文本中的特殊字符，例如下面从pdf读取的文本，需要进行解析：

山东师范大学硕士学位论文\n13第三章基于粗-细粒度双层注意力的视频-文本跨模态检索\n3.1粗-细粒度并行注意力网络结构\n图3-1展示了粗-细粒度并行注意力(CFGPA)模型的总体架构。该架构包含视频特征处\n理网络、文本特征处理网络和多层次相似度度量模块。在视频特征处理网络中，不同的视\n频特征提取器提取视频中所包含的不同模态特征，然后，将时序特征嵌入到不同模态的特\n征中，生成视频的初始特征()vI。视频的初始特征()vI输入到粗-细粒度并行注意模块，生\n成视频的中间特征\ud835(\ud835)，再经过视频特征融合模块生成视频的最终特征\ud835(\ud835)；在文本特征\n处理网络，使用预训练的BERT模型和门嵌入模块，生成文本特征\ud835(\ud835)。最后，\ud835(\ud835)和\ud835(\ud835)\n通过相似度度量模块来度量视频与文本特征的相似性。\n图3-1粗-细粒度并行注意力(CFGPA)模型的总体架构\n3.1.1视频特征处理网络\n采用粗-细粒度并行注意机制和特征融合模块对视频的初始特征进行处理。粗-细粒度\n并行注意模块包含两部分，一部分是基于模块内加权部分聚合网络的粗粒度注意力机制，\n另一部分是基于图注意网络的细粒度注意力机制。这两部分并行连接组成粗-细粒度并行注\n意网络。模型的输入的是视频的初始特征\ud835(\ud835)，输出的是视频的中间特征\ud835(\ud835)。使用特征\n融合模块来融合视频中间特征\ud835(\ud835)，最终，产生视频中的不同模态特征\ud835(\ud835)。\n视频特征提取器和时序信息嵌入：视频中包含不同模态的特征，使用预训练的视频特\n征提取器从原始视频中提取视频的不同模态初始特征\ud835\ud835(\ud835)=[\ud8351\ud835,\ud8352\ud835,...,\ud835\ud835−1\ud835,\ud835\ud835\ud835]

解决方法

使用正则匹配的方法，其他的方法都不够work：

import re  
text = "生成视频的中间特征\ud835"  
cleaned_text = re.sub(r'[^\w\s]', '', text)  
print(cleaned_text)