【高通量测序】.dna文件批量读取CAG重复序列长度

该博客介绍了如何使用R语言批量读取.txt文件,提取CAG重复序列长度,并生成CSV表。同时,利用R的lines()函数模拟了GEL电泳过程。
摘要由CSDN通过智能技术生成

191008 CAG读取思路

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import re

f = open(r'C:\Users\kagami\Desktop\TEST\m54045_190927_083209 1.txt',encoding='gb18030', errors = "ignore")
f.readline()
f.readline()

primertext = f.readline()
secondtext = str(primertext)

f.close()
text = re.sub(r"[0123456789 ]","", secondtext)       #输出纯净DNA序列

textsearch = re.search("GTCCTTCCAG(\S{0,1000})CCGCCGCCACCG",text)

CAGnumber = len(textsearch.group(1))
PolyQnumber = int(CAGnumber/3)

print(textsearch.group(1))
print(CAGnumber, PolyQnumber)

照着这个思路先把所有的.dna文件修改成了.txt文件,修改代码如下:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import os
import sys



#获取目录下文件名清单
files = os.listdir(r"E:\TEST\Origin")
#对文件名清单里的每一个文件名进行处理
for filename in files:
    portion = os.path.splitext(filename)#portion为名称和后缀分离后的列表
    if portion[1] ==".dna":#如果为JPG则更改名字
        newname = portion[0]+".txt"#要改的新后缀#改好的新名字
        print(filename)#打印出要更改的文件名
        os.chdir(r"E:\TEST\Origin")#修改工作路径
        os.rename(filename,newname)

(其实可以改动得更好,按照上面的方面会把所有的文件直接改名成.txt格式,源文件无法保留,而且还是在源文件夹下进行操作)

之后可以按照以上的思路,批量读取文件夹内的每一个txt文件,输出一张csv表,包含文件名、CAG数目、polyQ数目、CAG序列片段信息。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import os
import re
import linecache
import csv
import codecs

ListName = list()
ListOldPolyQnumber = list()
ListNewPolyQnumber = list()
List
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值