一、从URL读取并返回html树
1.1 Rcurl包
使用Rcurl包可以方便的向服务器发出请求,捕获URI,get
和 post 表单。比R socktet连接要提供更高水平的交互,并且支持
FTP/FTPS/TFTP,SSL/HTTPS,telnet
和cookies等。本文用到的函数是basicTextGatherer和getURL。想详细了解这个包的可以点击参考资料的链接。
R命令:
h
txt
参数url即为需要访问的url这里参数用headerfunction用到上一条命令返回的头信息,.encoding指定网页的编码方式为“UTF-8"。
网页的编码方式有很多,一般采用UTF-8,一些中文网页编码方式为“gbk",可以在浏览器的网页代码查看或者getURL返回的字符串看到。
小木虫网页代码查看
可见小木虫网页编码方式为gbk。
1.2 XML包
R语言XML包
具有读取或者创建XML(HTML)文件的功能,可以本地文件也支持HTTP 或者 FTP
,也提供Xpath(XML路径语言)解析方法。此处函数htmlparse,将文件解析为XML或者HTML树,便于进一步数据的提取或者编辑。
R命令:
htmlParse(file,asText=T,enco