流程:
1:蛋白质去除标签,筛选为单一标号(GI、ACESSION)
2:登录批量下载蛋白质地址https://www.ncbi.nlm.nih.gov/sites/batchentrez?db=Protein,上传文件,点击RETRIEVE按钮开始匹配
3:点击右上角SEND TO:选项进行下载,注意选择保存格式(保存为FASTA格式)
4:打开CD-HIT官网http://weizhongli-lab.org/cd-hit/,选择网页服务,根据需要选择CD-HIT类型
5:选择底端CD-HIT UCSC,根据需求选择,设置阈值,提交
6:页面自动跳转,可手动刷新
7:建议先预览文件,避免结果错误
8:下载名称为xxxx,fasta.1文件,即处理后文件
9:将文件重命名为xxxxx.fasta,即为正常可打开的fasta文件