解析html
函数 | 说明 |
---|---|
read_html(x, …, encoding = “”) | x为a url或 a local path |
html_nodes(x, css, xpath) | 通过使用 XPath and css ,selectors( read vignette("selectorgadget") to learn about it)选择文档的一部分 |
提取组件
函数 | 说明 |
---|---|
html_text(x) | 提取标签内的文本 |
html_attr (x,name) | 提取单个属性的内容,如href超链接 |
html_attrs(x) | 所有属性 |
html_tag(x) | 标签名 |
html_table() | Parse html tables into data frames |
for XML: read_xml , xml_node, xml_attr, xml_attrs, xml_text and xml_tag
提取,修改和提交形式的函数
html_form()
set_values()
submit_form()
浏览网站
html_session()
jump_to()
follow_link()
back(), forward()
submit_form()
# and so on
Examples
lego_movie <-read_html("http://www.imdb.com/title/tt1490017/")
rating <- lego_movie %>%
html_nodes("strong span") %>%
html_text() %>%
as.numeric()