Python去除中文文本中的特殊字符

最近需要去除文本中的特殊字符,例如下面从pdf读取的文本,需要进行解析:

山东师范大学硕士学位论文\n13第三章基于粗-细粒度双层注意力的视频-文本跨模态检索\n3.1粗-细粒度并行注意力网络结构\n图3-1展示了粗-细粒度并行注意力(CFGPA)模型的总体架构。该架构包含视频特征处\n理网络、文本特征处理网络和多层次相似度度量模块。在视频特征处理网络中,不同的视\n频特征提取器提取视频中所包含的不同模态特征,然后,将时序特征嵌入到不同模态的特\n征中,生成视频的初始特征()vI。视频的初始特征()vI输入到粗-细粒度并行注意模块,生\n成视频的中间特征\ud835(\ud835),再经过视频特征融合模块生成视频的最终特征\ud835(\ud835);在文本特征\n处理网络,使用预训练的BERT模型和门嵌入模块,生成文本特征\ud835(\ud835)。最后,\ud835(\ud835)和\ud835(\ud835)\n通过相似度度量模块来度量视频与文本特征的相似性。\n图3-1粗-细粒度并行注意力(CFGPA)模型的总体架构\n3.1.1视频特征处理网络\n采用粗-细粒度并行注意机制和特征融合模块对视频的初始特征进行处理。粗-细粒度\n并行注意模块包含两部分,一部分是基于模块内加权部分聚合网络的粗粒度注意力机制,\n另一部分是基于图注意网络的细粒度注意力机制。这两部分并行连接组成粗-细粒度并行注\n意网络。模型的输入的是视频的初始特征\ud835(\ud835),输出的是视频的中间特征\ud835(\ud835)。使用特征\n融合模块来融合视频中间特征\ud835(\ud835),最终,产生视频中的不同模态特征\ud835(\ud835)。\n视频特征提取器和时序信息嵌入:视频中包含不同模态的特征,使用预训练的视频特\n征提取器从原始视频中提取视频的不同模态初始特征\ud835\ud835(\ud835)=[\ud8351\ud835,\ud8352\ud835,...,\ud835\ud835−1\ud835,\ud835\ud835\ud835]

解决方法

使用正则匹配的方法,其他的方法都不够work:

import re  
text = "生成视频的中间特征\ud835"  
cleaned_text = re.sub(r'[^\w\s]', '', text)  
print(cleaned_text)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

农民小飞侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值