基因数据处理3之bwakit安装和使用

基因数据处理3之bwakit安装和使用


1.下载

方法1:

http://bio-bwa.sourceforge.net/

方法2:

https://github.com/lh3/bwa/tree/master/bwakit

方法3:

 wget http://sourceforge.net/projects/bio-bwa/files/bwakit/bwakit-0.7.12_x64-linux.tar.bz2


2.解压,然后可以直接运行:

hadoop@Master:~/cloud/adam/xubo/backup/test1$ tar -xjf bwakit-0.7.12_x64-linux.tar.bz2 
hadoop@Master:~/cloud/adam/xubo/backup/test1$ ls
bwa.kit  bwakit-0.7.12_x64-linux.tar.bz2  download

最好将bwa放到local的bin下:

sudo cp bwa /usr/local/bin



3.下载:

bwa.kit/run-gen-ref hs38DH


bwa.kit/bwa index hs38DH.fa  # create BWA index
# mapping
bwa.kit/run-bwamem -o out -H hs38DH.fa read1.fq read2.fq | sh

运行结果:

total 114M
drwxrwxr-x 3 hadoop hadoop 4.0K  3月 11 11:19 ./
drwxrwxr-x 3 hadoop hadoop 4.0K  3月 11 11:12 ../
drwxr-xr-x 5 hadoop hadoop 4.0K 12月 24  2014 bwa.kit/
-rw-rw-r-- 1 hadoop hadoop  46M 12月 29  2014 bwakit-0.7.12_x64-linux.tar.bz2
-rw-rw-r-- 1 hadoop hadoop  46M 12月 29  2014 download
-rw-rw-r-- 1 hadoop hadoop 8.0M  3月 11 11:18 hs38DH.fa
-rw-r--r-- 1 hadoop hadoop 477K  3月 11 11:18 hs38DH.fa.alt
-rw-rw-r-- 1 hadoop hadoop   15  3月 11 11:19 hs38DH.fa.amb
-rw-rw-r-- 1 hadoop hadoop 365K  3月 11 11:19 hs38DH.fa.ann
-rw-rw-r-- 1 hadoop hadoop 7.6M  3月 11 11:19 hs38DH.fa.bwt
-rw-rw-r-- 1 hadoop hadoop 1.9M  3月 11 11:19 hs38DH.fa.pac
-rw-rw-r-- 1 hadoop hadoop 3.8M  3月 11 11:19 hs38DH.fa.s

4.


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种非常适合处理基因型数据的编程语言。以下是一些处理基因型数据的示例代码: 1. 读取基因型数据文件 ```python import pandas as pd genotype_data = pd.read_csv('genotype_data.csv') ``` 2. 查看基因型数据的基本信息 ```python print(genotype_data.head()) # 查看前几行数据 print(genotype_data.info()) # 查看数据的基本信息 print(genotype_data.describe()) # 查看数据的统计信息 ``` 3. 对基因型数据进行基本的数据清洗 ```python # 删除缺失值 genotype_data.dropna(inplace=True) # 删除重复值 genotype_data.drop_duplicates(inplace=True) # 手动更改错误的数据 genotype_data.loc[genotype_data['SNP'] == 'rs123', 'genotype'] = 'AA' # 将字符串类型的基因型数据转换为数值类型 genotype_data['genotype'] = genotype_data['genotype'].map({'AA': 0, 'AB': 1, 'BB': 2}) ``` 4. 对基因型数据进行基本的数据分析 ```python # 计算每个SNP的基因型频率 genotype_freq = genotype_data.groupby('SNP')['genotype'].value_counts(normalize=True) # 计算每个个体的基因型得分 individual_score = genotype_data.groupby('individual')['genotype'].sum() # 计算每个SNP的杂合度 heterozygosity = genotype_data.groupby('SNP')['genotype'].mean() ``` 5. 对基因型数据进行可视化 ```python import matplotlib.pyplot as plt # 绘制基因型频率的柱状图 genotype_freq.plot(kind='bar') plt.show() # 绘制个体基因型得分的直方图 individual_score.plot(kind='hist') plt.show() # 绘制SNP杂合度的箱线图 heterozygosity.plot(kind='box') plt.show() ``` 以上是一些基本的处理基因型数据的示例代码,根据具体的任务需求,还可以使用其他Python库和工具进行更复杂的数据处理和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值