python爬取文献_python 在NCBI上抓取文献 利用POST提交表单进行翻页动作

我只试了获取xml,即,你要先打开网站,搜test,dispaly settings选xml,200条,apple,用firefox获取这一页的postdata,再同样获取另一页的postdata,里面的不同就是翻页,下面是我试成了的,获取一页xml的代码,多是从网上找的,呵呵。import urllib,urllib2,cookielib

cookie = cookielib.CookieJar()

cookieProc = urllib2.HTTPCookieProcessor(cookie)

opener = urllib2.build_opener(cookieProc)

urllib2.install_opener(opener)

postdata = 'term=test&等一堆。。。'

header = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Encoding":"deflate","Accept-Language":"zh-cn,en-us;q=0.7,en;q=0.3","Connection":"keep-alive"}#去掉了Accept-Encodig里面的压缩,否则收到压缩后的乱码

tmp = urllib2.Request(url='居然不让发网址/pubmed/?term=test',headers=header)

tmp = urllib2.urlopen(tmp).read()#这两步随便搜了个test,获取了cookie

req = urllib2.Request(url='居然不让发网址/pubmed',data=postdata,headers=header)

res = urllib2.urlopen(req).read()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值