最近需要去除文本中的特殊字符,例如下面从pdf读取的文本,需要进行解析:
山东师范大学硕士学位论文\n13第三章基于粗-细粒度双层注意力的视频-文本跨模态检索\n3.1粗-细粒度并行注意力网络结构\n图3-1展示了粗-细粒度并行注意力(CFGPA)模型的总体架构。该架构包含视频特征处\n理网络、文本特征处理网络和多层次相似度度量模块。在视频特征处理网络中,不同的视\n频特征提取器提取视频中所包含的不同模态特征,然后,将时序特征嵌入到不同模态的特\n征中,生成视频的初始特征()vI。视频的初始特征()vI输入到粗-细粒度并行注意模块,生\n成视频的中间特征\ud835(\ud835),再经过视频特征融合模块生成视频的最终特征\ud835(\ud835);在文本特征\n处理网络,使用预训练的BERT模型和门嵌入模块,生成文本特征\ud835(\ud835)。最后,\ud835(\ud835)和\ud835(\ud835)\n通过相似度度量模块来度量视频与文本特征的相似性。\n图3-1粗-细粒度并行注意力(CFGPA)模型的总体架构\n3.1.1视频特征处理网络\n采用粗-细粒度并行注意机制和特征融合模块对视频的初始特征进行处理。粗-细粒度\n并行注意模块包含两部分,一部分是基于模块内加权部分聚合网络的粗粒度注意力机制,\n另一部分是基于图注意网络的细粒度注意力机制。这两部分并行连接组成粗-细粒度并行注\n意网络。模型的输入的是视频的初始特征\ud835(\ud835),输出的是视频的中间特征\ud835(\ud835)。使用特征\n融合模块来融合视频中间特征\ud835(\ud835),最终,产生视频中的不同模态特征\ud835(\ud835)。\n视频特征提取器和时序信息嵌入:视频中包含不同模态的特征,使用预训练的视频特\n征提取器从原始视频中提取视频的不同模态初始特征\ud835\ud835(\ud835)=[\ud8351\ud835,\ud8352\ud835,...,\ud835\ud835−1\ud835,\ud835\ud835\ud835]
解决方法
使用正则匹配的方法,其他的方法都不够work:
import re
text = "生成视频的中间特征\ud835"
cleaned_text = re.sub(r'[^\w\s]', '', text)
print(cleaned_text)