python爬取文献_python 在NCBI上抓取文献利用POST提交表单进行翻页动作

最新推荐文章于 2024-03-15 17:00:00 发布

weixin_39743695

最新推荐文章于 2024-03-15 17:00:00 发布

阅读量353

点赞数

文章标签： python爬取文献

我只试了获取xml，即，你要先打开网站，搜test，dispaly settings选xml，200条，apple，用firefox获取这一页的postdata，再同样获取另一页的postdata，里面的不同就是翻页，下面是我试成了的，获取一页xml的代码，多是从网上找的，呵呵。import urllib,urllib2,cookielib

cookie = cookielib.CookieJar()

cookieProc = urllib2.HTTPCookieProcessor(cookie)

opener = urllib2.build_opener(cookieProc)

urllib2.install_opener(opener)

postdata = 'term=test&等一堆。。。'

header = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Encoding":"deflate","Accept-Language":"zh-cn,en-us;q=0.7,en;q=0.3","Connection":"keep-alive"}#去掉了Accept-Encodig里面的压缩，否则收到压缩后的乱码

tmp = urllib2.Request(url='居然不让发网址/pubmed/?term=test',headers=header)

tmp = urllib2.urlopen(tmp).read()#这两步随便搜了个test，获取了cookie

req = urllib2.Request(url='居然不让发网址/pubmed',data=postdata,headers=header)

res = urllib2.urlopen(req).read()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39743695

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python如何爬取sci论文_使用python爬取MedSci上的期刊信息

weixin_39836898的博客

11-30

1229

使用python爬取medsci上的期刊信息，通过设定条件，然后获取相应的期刊的的影响因子排名，期刊名称，英文全称和影响因子。主要过程如下：首先，通过分析网站http://www.medsci.cn/sci的交互过程。可以使用谷歌或火狐浏览器的“审查元素-->Network”，然后就可以看到操作页面就可以看到网站的交互信息。当在网页上点击“我要查询”时，网页会发送一个POST消息给服务器，然后，服...

【Python】正则匹配（抓NCBI的SNP数据）

九琼的博客

11-10

655

**目的：**从数千条类似数据中取出“NP_”部分例如：NP_000229.1：p.Val41Gly，并将其转化为“NP_000229.1 41 V G”的形式（用于PolyPhen2和SIFT的SNP预测） 1.测试匹配： content = 'NP_000229.1：p.Val41Gly，NP_000229.1：p.Val41Ala，NP_742053.1：p.Val41Gly' NPre ...

参与评论您还未登录，请先登录后发表或查看评论

爬虫python下载文献代码_简书爬虫API实现（python代码）

weixin_39911056的博客

11-23

320

特别喜欢简书这个网站，上面有很多优秀的作者，很多文章也写的非常好。最近想来有空的时候就写了个简书爬虫，抓取某个专题下的所有文章，为了完整性就完成以下一些功能。直接贴代码链接: wenjunoy/jianshu-spider-python ，相关的使用介绍在代码readme 也能看到。简要介绍本代码主要是提供一系列的API，用于爬取简书上的内容。可以抓取简书上用户相关信息，写的文章。还有抓取简书上...

Python爬虫之基于 selenium 实现文献信息获取

s_alted的博客

01-17

5422

看了这篇文章，导师再也不用担心我的毕业论文了

[爬虫实战]利用python快速爬取NCBI中参考基因组assembly的相关信息

weixin_56070595的博客

05-08

4945

最近在做某个课题的时候，按老师的要求需要从NCBI中批量下载不同物种的参考基因组，同时收集相应参考基因组的一些组装信息，基因组非常多，导致工作量巨大，一个一个手动收集的话，既费时又费力，这时就想到了用python爬虫来完成这项任务。本文主要介绍自己在接到任务后的思考和处理思路，仅代表个人观点，作为爬虫的练习。

python爬取pubmed的文献_利用selenium爬取pubmed，获得搜索的关键字最近五年发表文章数量...

weixin_39957027的博客

12-18

1737

PubMed 是一个提供生物医学方面的论文搜寻以及摘要，并且免费搜寻的数据库。是一个做生物方面经常要用到的一个查找文献的网站。最近刚学了爬虫相关的知识包括urllib库，requests库，xpath表达式，scrapy框架等。就想着去爬一下PubMed，就当练练手，准备根据搜索的关键字爬取PubMed上近五年发表文章数量，以此为依据来看看该研究方向的近五年的热门程度。最开始的想法是利用scrap...

python爬取pubmed的文献_爬虫获取pubmed中文献的标题和摘要

weixin_39801202的博客

12-18

1850

python爬取pubmed的文献_使用python來調用pubmed API快速整理文獻

weixin_39926943的博客

12-18

2577

在pubmed上用關鍵字取得的文獻後，想要把這些文獻直接收集起來，可以使用pubmed所提供的API，可以很簡單快速的達到自己想要的資料收集方式，這邊使用python來實作：#載入需要用到的包import requestsimport jsontry:import xml.etree.cElementTree as ETexcept ImportError:import xml.etree.Ele...

运用requests模块爬取NCBI数据库论文题目及摘要

ncx191314的博客

09-08

862

本人生物专业，本身做湿实验的，但对python有着极大的兴趣，因此开始自学Python。在这里记录一下学习进程。近期编一个爬取NCBI数据库文献的脚本，放在这里希望大家能帮忙看看可以改进的地方，谢谢大家。文章目录前言一、request库？二、使用步骤1.引入库2.爬取数据总结Date : 2021/9/8Position : Shanghai 前言提示：生物狗需要大量阅读外文文献，其中NCBI对生物狗来说是不可或缺的数据库，本文主要是实现爬取NCBI的论文题目、作者、期刊、摘要及链接提

毕业论文找文献是个问题，我直接用python把全网文献爬了一遍，这波就很舒服

m0_59235508的博客

11-16

1863

毕业论文找文献是个问题，我直接用python把全网文献爬了一遍，这波就很舒服

批量下载核酸序列

02-19

biopython,批量下载，命令方式：python3 get_nt_record.py acc_num

Python爬虫自动获取CSDN博客收藏文章代码

05-12

Python创意编程活动,Python爬虫自动获取CSDN博客收藏文章

【爬虫实战】Python爬取知网文献信息

2301_82000445的博客

03-15

5582

👉Python学习路线汇总👈Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（学习教程文末领取哈）👉Python必备开发工具👈。

Rcurl抓取NCBI信息

hill_night的专栏

05-17

3011

Rcurl抓取网页信息的教程网上已经给了很多，最经典的当属不务正业之Rcurl【1】，不过最近发现统计之都取消了会员制度，所以也就只能是演习前半部分了，其他资源也有不错的，如aircode的【2】研究的是汽车之家的车型，代码可以跑通，很是不错，但是据说XML包对汉语支持不好，另外其作者还有几篇文章【3-5】是介绍Rcurl的，分别是新浪个股的和拉手网（我试了一下，总是报错，发现竟然，有的没有地址，

工作经常用的小爬虫（应用于pubmed）一直更新.......

像风一样

04-01

5522

爬去某种关键字的文章总数import requests from openpyxl import Workbook from openpyxl import load_workbook import re import os def geturl(url): try: r = requests.get(url) r.raise_for_status() ...

python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

weixin_39623355的博客

03-26

4246

python爬虫——使用selenium爬取知网文献相关信息写在前面：本文章限于交流讨论，请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了，谢谢各位爬友指出错误在你复制本文章代码去运行的时候，请设置延迟，给自己留一条后路转载请注明来源，谢谢1. 先看爬取的效果2.知网的反爬虫手段很强，反正我爬取pc端的时候，用selenium爬取获取不到源代码，真是气人，后来换成手...

Python爬虫获取geneID对应的NCBI注释

学术程稻属

03-09

3103

在海量的组学数据中，我们经常需要根据已有的差异表达基因找到对应的注释信息。那么针对一系列基因ID批量获取其注释无疑能够大大简化后继的分析，提高科研效率。本次来分享使用python爬虫完成NCBI基因注释的方法。 Sample input：输入文件如下，是一列geneID。待获取的信息来源于NCBI-geneID页中Description项，也就是下图中红色方框项： Sample output：最终输出结果如下下面讲解一下思路流程： 1. 逐行读取xls文件列名并获取基因ID。 2. NCB

Biopython根据关键词在NCBI上查找文献

Cassiel60的博客

05-29

2883

Biopython是python的一个库，这个库可以解决很多生物上的问题，使大量的生物数据简单化，是个很好用的包。对于数据库上的各种信息，有专门的函数处理，不用按照常规的文本处理方法，写大量的代码。比如很常见的报告中展示的参考文献，一般思路是有了文章的PMID，然后通过爬虫的方法，获取这些文章的title，author，source等信息。在Biopython中有自己独特的解决方法。在NC...

python爬取pubmed文献

python爬取文献_python 在NCBI上抓取文献 利用POST提交表单进行翻页动作

python爬取文献_python 在NCBI上抓取文献利用POST提交表单进行翻页动作