1.根据一个表格是基因,一个工作簿里不同的癌种基因信息放在不同的表格中,要查找表1的每个基因在工作簿里的哪些癌种中存在
#!/usr/bin/env python
# encoding=utf-8
# 目的是根据基因在另一个工作簿中各个表格匹配癌种
import pandas as pd
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
df = pd.ExcelFile('../allgene.xlsx')
keylist=[]
valuelist =[]
liquid_gene = pd.read_excel('../liquid_ biospy.xlsx',header=0)
liquid_gene_list = liquid_gene.values.tolist()
# 读取工作簿里的每个表格的名字,然后以每个表格的癌种名字作为键值,每个表格中gene的列作为字典的值
for name in df.sheet_names:
filename = pd.read_excel('../allgene.xlsx',sheet_name=name,header=0)
value = filename['Gene'].values.tolist()
keylist.append(name)
valuelist.append(value)
# 分别把名字和gene放入列表,然后利用zip函数进行一一匹配,再把列表转换为字典。
dic =dict(zip(keylist,valuelist))
#print dic
liquid = {}
#根据gene去每个癌种的值(gene)寻找,如果能够找到就把这个癌种作为该基因的值
for gene in liquid_gene_list: