[笔记]基于R的网络抓取和文本挖掘——XPath

这篇笔记详细介绍了如何使用R进行网络抓取,并重点探讨了XPath在文本挖掘中的应用,尤其是XPath轴的概念,帮助理解如何定位网页元素。
摘要由CSDN通过智能技术生成

XPath:一种网页查询语言
XPath最准确的分类是一种特定域语言,其应用领域相对狭窄——专门用于从标记语言文档(类似于HTML或XML)选取信息的有用工具。

参考网站:http://www.r-datacollection.com/materials/ch-4-xpath/fortunes/fortunes.html
解析文件
> library(XML)
> parsed_doc<-htmlParse(file = "http://www.r-datacollection.com/materials/ch-4-xpath/fortunes/fortunes.html")
> print(parsed_doc)
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
<html>
<head><title>Collected R wisdoms</title></head>
<body>
<div id="R Inventor" lang="english" date="June/2003">
  <h1>Robert Gentleman</h1>
  <p><i>'What we have is nice, but we need something very different'</i></p>
  <p><b>Source: </b>Statistical Computing 2003, Reisensburg</p>
</div>

<div lang="english" date="October/2011">
  <h1>Rolf Turner</h1>
  <p><i>'R is wonderful, but it cannot work magic'</i> <br><emph>answering a request for automatic generation of 'data from a known mean and 95% CI'</emph></p>
  <p><b>Source: </b><a href="https://stat.ethz.ch/mailman/listinfo/r-help">R-help</a></p>
</div>

<address>
<a href="http://www.r-datacollectionbook.com"><i>The book homepage</i></a><a></a>
</address>

</body>
</html>
 
xpathSApply(&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值