批量处理文本信息中的字符
- 参考来源
- 说明: 对常用的文本中字符匹配的解决进行总结。介绍方法包括:1)word中查找替换的使用,
- 2)matlab和python中批量正则替换与读取的应用
一、利于word中的通配符匹配
- 适用于替换文本中特定区域的文本或标注出位置。对读取文字进行替换。
- 优特是方便简单,不需要额外编程技巧。上手快
- 缺点:只能做替换处理,不利于提取处理连贯处理。适用一个文本中大量操作。
例如
- 下为一段NCBI中下载的基因序列,需求把文本中基因长度的说明数字段(数值长度和标号都是未知)进行删除。数值段的前面是由冒号开始后面为空格加上任意字母。
>CP041356.1:161019-161782 Lactococcus sp. KACC 19320
CATACAGCGTGCTCCGCCACGGCCACGAGCCAGTTCACTAGAAAGAATTTCATGAACTTTGATACCGTGTTCTTTCAGAA
实践过程
-
打开高级查找功能
-
打开更多选项,选择使用通配符
-
搜索栏中输入 [:][0-9]*(>[!-]@)
整体表示为 寻找冒号后面任意0到9的数值到 第二个大的空格部分结束 [:] 表示 寻找冒号位置 [0-9] 表示数值 * 表示任意个 >[!-]@ 除了空格前全部内容
-
最后凸显出文本并进行替换
与董说
尚:你发现没有,其他实验室中那些没有评上杰青的教授往往是最凶的。
董:是因为他们马上要评上了??
尚:不是,他们经常会说“你谁呀你。"