R语言-XML与XPath表达式以及R爬虫应用

最新推荐文章于 2024-08-16 22:09:56 发布

pdc31czy

最新推荐文章于 2024-08-16 22:09:56 发布

阅读量337

点赞数 1

分类专栏： R 文章标签： r语言开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pdc31czy/article/details/126956618

版权

R 专栏收录该内容

29 篇文章 3 订阅

订阅专栏

###6.2 XML与XPath表达式以及R爬虫应用

##6.2.1 XML

#XML

#可扩展标记语言

#eXtensible markup language

#和HTML不同的是，

#XML是被设计用来传输和存储数据的

#“网络数据交换最流行格式”

#看page304的代码sample

#一个XML文档永远以声明该文档属性的一行代码来开头

## <?xml version="1.0" encoding="ISO-8859-1"?>

#version = "1.0" 用来声明该XML文档的版本号，目前有1.0和1.1两个版本

#encoding="ISO-8859-1"用来声明编码格式

#XML文档必须有一个根元素，这个根元素包裹了整个文档

# https://www.xml.com/

#参考XML官网查看注释、特殊字符命名、事件驱动等细节知识

##6.2.2 如何在R语言中解析XML

#XML文件的符号序列会被读取并从元素中创建层次化的C语言树形数据结构

#这个数据结构会通过处理器翻译为R语言的数据结构

xmlParse()#解析XML

#例：

library(XML)

nbadata = xmlParse(file = "./nbaplayer.xml")

nbadata

## <?xml version="1.0" encoding="ISO-8859-1"?>

## <nbaplayer>

## <team>

## <city name="houston"> rockets</city>

## <player> james harden</player>

## </team>

## <team>

## <city name="boston"> celtics</city>

## <player> kyrie irving</player>

## </team>

## <team>

## <city name="goldenstates"> worriors</city>

## <player> stephen curry</player>

## </team>

## </nbaplayer>

##

##6.2.3 XPath表达式

#提取HTML和XML中的数据信息

#查询标记语言的方法

#Xpath表达式就是选取XML或者HTML文件中节点的方法

#节点就是XML/HTML文档中的元素

#XPath通过路径表达式(path expression)来选择节点信息

#跟文件系统路径一样使用"/"符号来分割路径

nodename:选择该节点的所有子节点

/:选择根节点

//:选择任意节点

@:选择属性

#install.packages(rvest)

library(rvest) #利用rvest包提取信息

# install.packages(xml2)

library(xml2)

# install.packages(dplyr)

library(dplyr)

read_html('http://movie.douban.com/subject/26862829/') %>% html_nodes(xpath = "//h1//span")

## {xml_nodeset (2)}

## [1] <span property="v:itemreviewed">芳华</span>

## [2] <span class="year">(2017)</span>

##6.2.4 SelectorGadget 自动生成XPath表达式

#Chrome插件：SelectorGadget

#快速定位节点信息的CSS选择器插件

#方便快捷地生成网页中想要提取的信息的XPath表达式

#怎么下载和使用看page309

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
R语言-XML与XPath表达式以及R爬虫应用

XML与XPath表达式以及R爬虫应用
复制链接

扫一扫

专栏目录

pdc31czy CSDN认证博客专家 CSDN认证企业博客

码龄5年

54: 原创

-: 周排名

3万+: 总排名

3万+: 访问

: 等级

699: 积分

103: 粉丝

101: 获赞

6: 评论

267: 收藏

私信

关注

热门文章

分类专栏

个人笔记 16篇
Linux 3篇
Python 11篇
TensorFlow 8篇
MATLAB 6篇
R 29篇

最新评论

Linux配置Tensorflow2 GPU环境
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
Linux配置Tensorflow2 GPU环境
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
LINUX Drive CUDA cuDNN Anaconda TensorFlow2
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
R语言-图像分析
今天吃苹果了吗: 您好老师，想请教一下r语言可以读取bmp图像文件的文件头和位图数据吗
R语言-模型训练与调参
lhzdmxxb: >Profile = rfe(x, y, sizes = subsets, rfeControl = ctrl) >Error in rfe.default(x, y, sizes = subsets, rfeControl = ctrl) : there should be the same number of samples in x and y 请问这种错误怎么解决啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。