r语言 html.nodes,R语言爬取动态网页（一）

最新推荐文章于 2023-03-06 09:14:37 发布

老宋的茶书会

最新推荐文章于 2023-03-06 09:14:37 发布

阅读量834

点赞数

文章标签： r语言 html.nodes

R语言爬取动态网页(一)

(2016-11-09 22:48:58)

参考http://www.jb51.net/article/58942.htm的分析，利用开发者工具找到真正的内容

library(rvest)

library(stringr)

url

web

name%html_nodes("tr td

")%>%html_text()#提取文本，如项目编号

name

id%html_nodes("tr td

span")%>%html_attr("id")#提取属性

library(RCurl)

url2

web2

detect

return(str_detect(web2,id[i]))

}

res

patter

value

str_c(name[1],value)

patter

value

str_c(name[2],value)#拼接

后期还要有一些的字符串的处理，因为格式不一致，正则表达式不好写，这里暂且搁置

喜欢

赠金笔

加载中，请稍候......

评论加载中，请稍候...

发评论

登录名：密码：找回密码注册记住登录状态

昵称：

评论并转载此博文

发评论

以上网友发言只代表其个人观点，不代表新浪网的观点或立场。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

老宋的茶书会

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
r语言 html.nodes,R语言爬取动态网页（一）

R语言爬取动态网页(一)(2016-11-09 22:48:58)参考http://www.jb51.net/article/58942.htm的分析，利用开发者工具找到真正的内容library(rvest)library(stringr)urlwebname%html_nodes("tr td")%>%html_text()#提取文本，如项目编号namenameid%html_nodes(...
复制链接

扫一扫