安装和使用Entrez Direct

安装和使用Entrez Direct软件

#到home目录下
cd
#等同于用~/ ,~/ 表示你的home目录
cd ~/

#创建/local/app目录来存放需要安装的程序
mkdir -p ~/local/app

#进入app目录
cd ~/local/app

获取entrez direct 工具包

#大写 -O 是使得curl 命令去识别url上的文件名(作为下载后的文件名字)
curl ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip -O
#上一条命令等同于
curl ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip -o edirect.zip

解压这个工具包

unzip edirect.zip

查看新工具

cd edirect
ll

配置环境变量

echo "export PATH=\$PATH:\$HOME/local/app/edirect" >> $HOME/.bashrc
source ~/.bashrc

esearch -help
Option h is ambiguous (help, http, https)
Query Specification
  -db          Database name
  -query       Query string
Document Order
  -sort        Result presentation order
Date Constraint
  -days        Number of days in the past
  -datetype    Date field abbreviation
  -mindate     Start of date range
  -maxdate     End of date range
....................................................
#.bashrc 这个文件主要保存个人的一些个性化设置,如命令别名、路径等


运行 einfo

einfo -help
einfo 7.40
Database Selection
  -db        Database name
  -dbs       Get all database names
Data Summaries
  -fields    Print field names
  -links     Print link names
Field Example
  <Field>
    <Name>ALL</Name>
    <FullName>All Fields</FullName>
.........................................................................

抓取描述信息,然后查看它们

einfo -dbs > einfo-dbs.txt
more einfo-dbs.txt
einfo -db sra > einfo-sra.txt
more einfo-sra.txt

运行esearch

esearch -help
esearch -db nucleotide -query PRJNA257197
#-db是指定数据库类型,而query是跟着你要搜索的关键词。
#在nucleotide这个数据库(database,简称db)里用关键词PRJNA257197搜索

这里写图片描述
1:数据库类型为nucleotide,我们esearch的时候就指明了,我们要在nucleotide这个数据库=里搜索
2:搜索关键词数量:1(因为我们只输入了一个关键词,就是PRJNA257197)
3:搜索得到的条目有249个


这一步相当于你到NCBI的首页,做了下图的操作:
这里写图片描述


并点了Search
看!果然是249条检索结果
这里写图片描述


抓取nucleotides数据

esearch -db nucleotide -query PRJNA257197 | efetch -format fasta > ~/edu/lec3/ebola.fasta

看一下这个文件里有多少条序列

cat ~/edu/lec3/ebola.fasta | grep ">" | wc -l
249
cat ~/edu/lec3/ebola.fasta | wc -l
67603
less ~/edu/lec3/ebola.fasta

以GenBank格式获取数据

esearch -db nucleotide -query PRJNA257197 | efetch -format gb > ~/edu/lec3/ebola.gb
less ~/edu/lec3/ebola.gb

看一下这个文件里有多少条序列

cat ~/edu/lec3/ebola.gb | grep ^LOCUS | wc -l
249
已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页