由于最近准备着学习手数据挖掘,想着先从爬取数据开始。
现做一下总结,可能需要的R包有: rvest(主要)、xml2、stringr(主要用来实现字符串处理)
一、简单介绍rvest函数
read_html() #用来下载网页
htnl_nodes() #用来标记要抓取网页元素的节点
html_attrs() #用来下在相应的网址(2,3函数单数情况也可以使用)
html_tag() #提取标签名称
html_table() #用来抓取表格
read_html() #用来下载网页
htnl_nodes() #用来标记要抓取网页元素的节点
html_attrs() #用来下在相应的网址(2,3函数单数情况也可以使用)
html_tag() #提取标签名称
html_table() #用来抓取表格