R语言爬取动态网页(一)
(2016-11-09 22:48:58)
参考http://www.jb51.net/article/58942.htm的分析,利用开发者工具找到真正的内容
library(rvest)
library(stringr)
url
web
name%html_nodes("tr td
")%>%html_text()#提取文本,如项目编号
name
name
id%html_nodes("tr td
span")%>%html_attr("id")#提取属性
id
library(RCurl)
url2
web2
detect
return(str_detect(web2,id[i]))
}
res
res
id
patter
value
str_c(name[1],value)
patter
value
value
str_c(name[2],value)#拼接
后期还要有一些的字符串的处理,因为格式不一致,正则表达式不好写,这里暂且搁置
分享:
喜欢
0
赠金笔
加载中,请稍候......
评论加载中,请稍候...
发评论
登录名: 密码: 找回密码 注册记住登录状态
昵 称:
评论并转载此博文
发评论
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。