python爬取genek视频_使用Python爬取Genecards网站中基因信息

最新推荐文章于 2022-12-26 16:24:45 发布

weixin_39683858

最新推荐文章于 2022-12-26 16:24:45 发布

阅读量878

点赞数

文章标签： python爬取genek视频

本文介绍了如何使用Python爬取Genecards网站上的基因信息，通过分析网址结构，采用requests库下载网页内容，然后利用lxml库解析XPath找到所需数据，最终将数据存储到Excel文件中，为1500个基因提供基本信息。

摘要由CSDN通过智能技术生成

爬虫5个步骤

1、需求分析

有1500个基因名(human genome)，想要知道这些基因的基本功能。

2、寻找网址

genecards网站，有关于基因信息的详细描述，包括基因别名，基因简介(包括NCBI, UniProt等网站关于该基因的介绍)，基因在基因组上信息等，可以使用此网站的基因简介模块内容，得到我们需要的基因的基本功能。

网站首页有2种搜索方式。以ACE2基因为例

方法1：在Keywords搜索栏中输入基因名称；

方法2：在Explore a Gene处有一个搜索框，可以输入基因名称；

搜索完，直接跳转到详情页

综合分析后，发现方法2得到的网址结构组成更简单，选择这种网址结构，进行后续分析。

3. 下载网址的返回内容(requests)

# 以单个基因ACE2为例

import requests

url = 'https://www.genecards.org/cgi-bin/carddisp.pl?gene=ACE2'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0',

}

def get_search_response(url):

response = requests.get(url, headers=headers)

with open('ACE2.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39683858

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫借助Genecards网站将基因全名转换为Gene Symbol——历时8小时！

yeahMeng的博客

04-09

5505

历时8小时的爬虫：基因全名与基因名缩写的转换——Genecards 在爬取了TCMSPW的中药材的靶向基因后，得到的靶向基因名称是全名，但是后续分析需要的是基因名称缩写（即Gene Symbol）。最初尝试用R语言的org.Hs.eg.db包来进行转换，然而结果不尽人意，能转换的基因寥寥无几，于是又将目光投向了Genecards。。基本思路是将基因全名进行检索，然后选取检索结果中第一个，这样的弊...

python爬取genek视频_【Python】爬虫(Xpath):批量爬取站长免费简历

weixin_39830200的博客

12-09

186

from lxml import etreeimport requestsimport os#封装解析下载函数def cv_down(cv_href, headers):for href in cv_href:act_response = requests.get(url=href, headers=headers).textact_tree = etree.HTML(act_response)c...

参与评论您还未登录，请先登录后发表或查看评论

基于爬虫实现基因功能批量查找

yiweij的博客

12-26

771

python代码实现功能基因查找，genecard,自动化

python爬取MalaCards目录url

Somnial_snow的博客

07-24

1479

Python爬取MalaCards目录url 每天进步一点点~这段时间瞄上了genecards网站，还得就它的数据库鏖战几天。而要获得它的基因信息，第一步，就是获得它所有数据的url，那就得先获得它的目录了。接下来，我们进入它的网页中看一看步骤。 #!/usr/bin/env python # -*- coding:utf-8 -*- # _author_='snowymil...

Genecards数据库使用教程.pdf

10-08

数据库使用教程

关于Genecards-Pro

06-16

1686

这个项目说起来很内疚，是我大学一个恩师2017年给我的题目，我一拖到现在都没有做好。我感觉不是时间问题，也不是技术问题，完完全全是自己太废了。现在我做的这些为了什么我自己心里很清楚。好了，我们来说说这个项目是做什么的，要设计成什么样吧。首先这个项目是为了在手机端也能方便地查询各种基因的各种信息。目前主流的基因查询类的网站并没有提供什么restful接口给我们使用，所以我们只...

生物信息学软件汇总

09-22

随着基因组学、蛋白质组学等领域的发展，产生了大量的生物数据，这使得生物信息学在现代生物学研究中的地位日益凸显。本文将详细介绍一系列常用的生物信息学分析工具，这些工具涵盖了从基因到蛋白质各个层面的分析...

常见基因选择方法[持续更新中...]

Eyno的博客

03-01

1752

SCMarker：选择表达水平呈双/模态分布，并且与其他一些基因共同表达或相互排斥性表达的基因。论文链接 library(SCMarker) scMarker <- function(data){ Res <- ModalFilter(data = data, geneK = 10, cellK = 10) Res <- GeneFilter(obj = Res) Res <- getMarker(obj = Res, k = 300, n = 30) scMa.

生物信息学之 anconda / miniconda

wt141643的博客

06-23

1241

之前在构建生物信息学环境里面已经介绍了这个区别，也可以参考这个知乎链接https://zhuanlan.zhihu.com/p/35711429，下面讲的是一些常用命令。安装conda wget ftp://gsx.genek.tv/training20200310/Miniconda3-latest-Linux-x86_64.sh # 给一个张旭东老师的好用的脚本，下载下来后 bash xxx...

C:\Users\wang521wgp>ssh ug1116 gs12.genek.cn 'ssh' 不是内部或外部命令，也不是可运行的程序或批处理文件。

08-11

1. **路径问题**：Windows系统默认环境下可能没有将SSH客户端（如Putty、Git Bash等）添加到系统的PATH环境变量中，所以命令行无法直接识别它。 2. **命令未安装**：如果你从未安装过SSH客户端，那么"ssh"命令自然...

《精通Python网络爬虫》核心技术篇4

PzLu's Blog

05-04

1063

第4章 Urllib与URLError异常处理 Urllib库快速使用 Urllib 爬取网页浏览器的模拟——Headers 属性超时设置 HTTP 协议请求实战代理服务器的设置 DebugLog 实战异常处理神器——URLError实战 Urllib库 Urllib 是 Python 提供的一个用于操作 URL 的模块。我们爬取网页时会经常用到这个库。下...

最近看到的一些感觉有用的网站（gene list 、gene-gene graph）

coolsen133的专栏

01-02

1450

http://manual.graphspace.org/projects/graphspace-python/en/latest/demos/gene-gene-graph.html http://www.whichgenes.org/ https://www.snip2code.com/Access/Landing https://www.ncbi.nlm.nih.gov/...

【python爬虫】爬取疾病资料库

qq_40124134的博客

10-17

2483

资料库地址：http://web.tfrd.org.tw/genehelp/diseaseDatabase.html?selectedIndex=0 资料库它长这样：这次主要爬取其中的疾病名称，难点在于网页源代码是看不到数据的，但是可以通过F12开发者工具查看网页请求数据的源网址可以看到requestURL的地址，打开这个地址可以看到：其中的大部分文字就是疾病名称，...

27-移动机械手轨迹跟踪自适应神经PD控制器运行所提出的自适应神经控制器的主要脚本是main-Single-ANN和main

最新发布

10-03

27-移动机械手轨迹跟踪自适应神经PD控制器运行所提出的自适应神经控制器的主要脚本是main_Single_ANN和main_Multilayer_ANN。比较的控制器在脚本 main_CPID 和 main_PID 中给出。仿真结果在名为“比较结果”的文件夹中给出。实际实验的结果在名为“实验结果”的文件夹中给出。请运行 main.m 脚本以获取以图形和表格形式呈现的结果。保证成功运行

基于Java语言的IT行业新闻资讯类设计源码

10-03

该项目是一款基于Java语言的新闻资讯类应用程序设计源码，共包含343个文件，其中Java源文件281个，XML配置文件37个，YAML文件18个，FreeMarker模板文件3个，配置工厂文件2个，Git忽略文件1个，以及Dockerfile文件1个。该系统专注于新闻资讯类应用的开发，适用于各类新闻资讯平台的搭建。

基于Java的SaaS短链接管理系统设计源码

10-03

该项目是一款基于Java核心技术的SaaS短链接管理系统源码，总计包含219个文件，涵盖188个Java源文件、14个XML配置文件、11个YAML文件、2个SQL文件、1个.gitignore配置文件、1个Markdown文件、1个Lua脚本和1个HTML文件。该系统致力于为企业和个人用户提供便捷、安全的短链接管理服务，简化长链接操作，并具备强大的数据分析与跟踪功能，包括PV、UV、UUI等关键数据统计，助力用户优化链接管理，提升营销效果和业务成果。

风光储共交流母线制氢模型，光伏，风机采用mppt实现最大功率跟踪；储能采用电压电流双闭环控制；并网采用pq控制，整流采用svpw

10-03

风光储共交流母线制氢模型，光伏，风机采用mppt实现最大功率跟踪；储能采用电压电流双闭环控制；并网采用pq控制，整流采用svpwm调制。制氢可接pem~碱性电解槽。

神经网络LSTM预测汇率.zip

10-03

神经网络LSTM预测汇率