Content
工具 rvest
rvest:
- 直接处理和操作 HTML 数据
- 它旨在与使用 %>% 构建的管道一起使用
rvest核心函数:
- read_html 从 url 或字符串中读取 HTML 数据
- html_node 从 HTML 文档中选择一个指定的节点
- html_nodes 从 HTML 文档中选择特定节点
- html_table 将 HTML 表格解析为data frame
- html_text 提取标签对的内容
- html_name 提取标签名称
- html_attrs 提取每个标签的所有属性
- html_attr 按名称提取标签的属性值
实例:Glasgow房价
URL: https://nethouseprices.com/house-prices/Lanarkshire/GLASGOW
安装包
install.packages("robotstxt")
install.packages("tidyverse")
install.packages("rvest")
install.packages("stringr")
1 检查许可
library(robotstxt)
paths_allowed("http://www.imdb.com")