GEO数据库中搜索数据

GEO数据库https://www.ncbi.nlm.nih.gov/gds/

GEO DataSets和GEO Profiles是NCBI的Entrez数据库网络的一部分。与这些其他数据库一样,只需在GEO DataSets或GEO Profiles的搜索框中输入关键词,就可以找到感兴趣的数据。在GEO DataSets和GEO Profiles页面头部链接的高级搜索和限制页面,对复杂查询的构建有很大帮助。要构建一个复杂的查询,指定搜索条件、它们的字段,以及使用以下语法对条件进行布尔运算。

term [field] OPERATOR term [field]

注:OPERATOR is the Boolean operator ('AND', 'OR', 'NOT' must be capitalized).


常用字段为:
All Fields,Title,MeSH Terms,Description,Number of Samples,Supplementary Files,Update Date,GEO Accession,Organism

Search Examples:

Search by...Search text
Free textsmoking cancer
Keywords and species(smok* OR diet) AND (mammals[organism] NOT human[organism])
Studies in the NIH Roadmap Epigenomics project"roadmap epigenomics"[Project] 
Study type"expression profiling by high throughput sequencing"[DataSet Type]
Studies with between 100 and 500 samples100:500[Number of Samples]
Studies with CEL files"cel"[Supplementary Files]
DataSets that have 'age' as an experimental variable"age"[Subset Variable Type]
Authorsmith a[Author]
Published between January and June 20072007/01:2007/06[Publication Date]
Platform accessionGPL570
Studies with PubMed identifiers"gds pubmed"[Filter]

关于MeSH  https://www.nlm.nih.gov/mesh/meshhome.html


例子

gastric tumor[MeSH] 

gastric tumor[Title] 

gastric tumor[Title] AND Homo sapiens[Organism] 

Colorectal Neoplasms[MeSH]

Colorectal Neoplasms[MeSH] AND Homo sapiens[Organism] 

Colorectal Neoplasms[MeSH] AND Homo sapiens[Organism] AND 100:500[Number of Samples] AND 

Colorectal cancer[All Fields] AND Homo sapiens[Organism] 

Colorectal cancer[MeSH  Terms] AND "Homo sapiens"[Organism] 

(survival OR prognosis OR prognostic OR outcome OR death OR relapse OR recurrence) AND Colorectal Neoplasms[MeSH] AND Homo sapiens[Organism] AND (metastatic OR metastasis) AND 10:10000[Number of Samples] AND GPL570[Related Series]

Colorectal Neoplasms[MeSH] AND immunotherapy[Title] 

Colorectal Neoplasms[MeSH] AND primary[Title] 

Colorectal Neoplasms[MeSH] AND primary[metastatic]  

(intestinal polyps[MeSH] OR Colorectal Neoplasms[MeSH]) AND Homo sapiens[Organism] AND primary[Title] AND AND 10:10000[Number of Samples] 

参考

https://www.ncbi.nlm.nih.gov/geo/info/qqtutorial.html
 

<think>好的,我现在需要解决用户关于GEO数据库中缺失原始数据的问题。首先,我得回忆一下GEO数据库的基本情况,用户提到的引用资料提到GEO是存储基因表达数据的公共数据库,由NCBI维护,包含各种高通量数据。用户的问题是如何处理当他们在GEO中找不到需要的原始数据时的情况。 根据引用[3],如果从GEO得到的芯片数据需要差异表达分析,可以考虑使用GCBI平台来处理原始CEL文件。这可能是一个解决办法,但用户的问题是关于缺失原始数据的情况,比如某些数据集可能没有上传原始数据,只有处理过的数据。这时候该怎么办呢? 首先,我需要考虑用户可能遇到的几种情况:原始数据未上传、数据部分缺失或格式问题。然后根据每个情况提出解决方法。例如,引用[1]提到上传数据GEO需要获取登录号,但反过来,如果别人的数据没有上传原始数据,用户可能需要联系作者或者寻找替代数据集。 另外,引用[5]提到探针ID与基因名的映射问题,这可能与数据处理有关,但如果原始数据缺失,可能需要其他方法,比如使用其他数据库或补充数据。例如,用户可能需要检查其他数据库如ArrayExpress,或者使用已处理的表达矩阵进行再分析,尽管这可能限制分析的深度。 还要考虑使用GEO的补充材料,或者文献中提供的数据。引用[4]指出GEO收录已发表论文的数据,所以如果原始数据不在GEO,可能需要查看论文的补充材料是否有数据。此外,引用[2]提到GEO适合非肿瘤研究,但如果是肿瘤数据,可能需要结合TCGA等数据库。 总结可能的解决步骤:1. 检查GEO中是否有其他形式的数据可用,如处理过的矩阵;2. 联系数据提交者获取原始数据;3. 使用替代数据库;4. 利用已处理的数据进行再分析;5. 使用其他工具或平台处理现有数据。同时,需要提醒用户注意数据质量,比如引用[5]中提到的探针与基因名映射的问题,可能会影响分析结果。 最后,确保回答结构清晰,分点列出解决方案,并引用相关的资料作为支持。例如,使用GCBI平台(引用3)、检查其他数据库(引用2和4)、联系作者(引用1)等。同时,生成的相关问题需要围绕GEO数据挖掘的常见问题,如差异分析、数据预处理等。</think>### 处理GEO数据库中缺失原始数据的解决方案 当在GEO数据库中遇到原始数据缺失时,可以通过以下步骤逐步解决: #### 1. **确认数据缺失类型** - **原始数据未上传**:部分研究仅提交处理后的表达矩阵(如`GSEXXXX_series_matrix.txt`),而未提供原始文件(如CEL文件)[^4]。此时需检查数据集页面中的“Supplementary file”或“Series Matrix File”部分。 - **数据不完整**:某些样本的原始数据可能因提交者遗漏而缺失,需通过数据集描述文件(如`Samples.csv`)核对样本数量。 #### 2. **尝试替代数据源** - **使用处理后的表达矩阵**: 若原始数据不可用,可直接下载已标准化的表达矩阵(如FPKM、TPM值)。例如: ```r library(GEOquery) gset <- getGEO("GSEXXXX", destdir=".", getGPL=FALSE) expr <- exprs(gset[[1]]) ``` 虽然灵活性较低,但能满足基础差异表达分析需求[^2]。 - **检索其他数据库**: 在ArrayExpress、TCGA或ICGC中搜索相同疾病或实验条件的数据作为补充[^2][^4]。 #### 3. **联系数据提交者** - 通过GEO数据集页面中的“Contact”信息或原始论文通讯作者邮箱,请求补充原始数据。据统计,约30%的研究者会响应此类请求[^1]。 #### 4. **利用工具间接处理** - **从处理后的数据反推**: 若仅有标准化数据,可通过`limma`包的`voom`函数模拟原始计数分布(适用于RNA-seq数据): ```r design <- model.matrix(~0 + group) v <- voom(expr_matrix, design, plot=TRUE) ``` - **探针重注释**: 若原始探针注释文件缺失,使用GPL平台的探针序列通过Blast比对到最新基因组版本[^5]。 #### 5. **注意事项** - **数据质量控制**:检查缺失值比例,若超过15%,建议使用`impute`包的K近邻算法填补: ```r library(impute) expr_imputed <- impute.knn(expr_matrix)$data ``` - **跨平台验证**:若需整合多数据集,使用`sva`包的`ComBat`函数校正批次效应。 --- ### 相关问题 1. 如何从GEO的标准化表达矩阵中提取差异表达基因? 2. 处理多批次GEO数据时如何消除批次效应? 3. GEO数据库中如何筛选适合特定疾病研究的数据集? 4. 探针ID注释不匹配时有哪些解决方案?[^5] 通过以上方法,即使原始数据缺失,仍能有效利用GEO数据进行后续分析。建议优先选择包含原始CEL文件且样本量大于30的数据集以提高可靠性[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值