r语言 html.nodes,R语言:rvest抓取网页信息

本文介绍了如何使用R语言的rvest包抓取网页信息,包括搜索PubMed.cn网站上的疾病关键字,获取文章链接,以及提取文章摘要。通过定义`getPageList`和`getAbstract`两个函数,实现了从搜索结果列表中获取文章标题、作者、来源和PMID,以及从文章详情页提取摘要信息。
摘要由CSDN通过智能技术生成

好久没有用R了,今天复习了下,用rvest写了个抓取 http://pubmed.cn 网站关键字搜索结果的脚本,分享一下。

需求

按关键字搜索, 并记录文章列表中的链接等信息。

打开文章页面, 提取其中的abstract摘要信息。

分析网站请求

打开网站, 输入关键字 disease ,可以得到搜索链接,明显是GET请求

http://pubmed.cn/search?q=disease&p=2&pn=20&vt=Summary&ot=PublicationDate&st=main&dt=&ft=

观察链接,可以看出 q=disease 是关键字, p=2 是页码, pn=20 是每页记录数, 其它的参数也都可以尝试出来

搜索列表抓取函数

library("rvest")

getPageList

# 读取页面

page

# 按照CSS选择器的语法, 选择页面中

...
中的内容

tmp div#SFW>div.rprt")

# 选择

中的 title="..." 属性值

title % html_attr("title")

# 选择href属性值

furl a[target=_blank]") %>% html_attr("href")

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值