批量处理文本信息中的字符

本文介绍了如何利用Word中的通配符匹配和编程语言如MATLAB、Python进行批量文本处理,特别是针对特定字符模式的查找与替换。通过实例展示了如何删除基因序列描述中的长度信息,并讨论了各种方法的优缺点。这种方法适用于快速处理单个文档,但在大量文本处理时,推荐使用编程语言以实现更复杂的操作。
摘要由CSDN通过智能技术生成

批量处理文本信息中的字符

  • 参考来源
  • 说明: 对常用的文本中字符匹配的解决进行总结。介绍方法包括:1)word中查找替换的使用,
  • 2)matlab和python中批量正则替换与读取的应用

一、利于word中的通配符匹配

  • 适用于替换文本中特定区域的文本或标注出位置。对读取文字进行替换。
  • 优特是方便简单,不需要额外编程技巧。上手快
  • 缺点:只能做替换处理,不利于提取处理连贯处理。适用一个文本中大量操作。

例如

  • 下为一段NCBI中下载的基因序列,需求把文本中基因长度的说明数字段(数值长度和标号都是未知)进行删除。数值段的前面是由冒号开始后面为空格加上任意字母。
>CP041356.1:161019-161782 Lactococcus sp. KACC 19320 
CATACAGCGTGCTCCGCCACGGCCACGAGCCAGTTCACTAGAAAGAATTTCATGAACTTTGATACCGTGTTCTTTCAGAA

实践过程

  1. 打开高级查找功能
    在这里插入图片描述

  2. 打开更多选项,选择使用通配符
    在这里插入图片描述

  3. 搜索栏中输入 [:][0-9]*(>[!-]@)

     整体表示为 寻找冒号后面任意0到9的数值到
     第二个大的空格部分结束
     [:] 表示 寻找冒号位置
     [0-9] 表示数值
     * 表示任意个
     >[!-]@ 除了空格前全部内容
    
  4. 最后凸显出文本并进行替换
    在这里插入图片描述
    与董说

尚:你发现没有,其他实验室中那些没有评上杰青的教授往往是最凶的。
董:是因为他们马上要评上了??
尚:不是,他们经常会说“你谁呀你。"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值