R语言-HTML 基础与R语言解析

pdc31czy

已于 2022-09-20 16:48:15 修改

阅读量821

点赞数

分类专栏： R 文章标签： r语言开发语言

于 2022-09-20 16:46:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pdc31czy/article/details/126956593

版权

R 专栏收录该内容

29 篇文章 3 订阅

订阅专栏

###6.1 HTML 基础与R语言解析

#额外备注：Python中的scrapy框架，爬虫

#HTML

#hyper text markup language

#超文本标记语言

##6.1HTML的语法规则

#单击鼠标右键，查看源文件/审查元素

##1.标签、元素和属性

#标签，以一对"< >"符号包括起来

#元素，起始标签、内容和终止标签组合成为元素

#终止标签会有一个"/"符号

#<br>标签表示换行，不需要</br>标签来表示终止

<a> 定义锚

<meta> 定义关于HTML文档的元信息

<link> 定义文档与外部资源的关系

<code> 定义计算机代码文本

<p> 定义段落

<h1>-<h6> 定义HTML标题

<div> 定义文档中的节

<span> 定义文档中的节

<form> 定义供用户输入的HTML表单

<script> 定义客户端脚本

#属性就是让标签能够描述其内容处理方式的选项

#具体属性的作用则根据相应的标签来定

#属性总是处于起始标签的内部、标签名的右侧

#一个标签拥有多个属性也是常见操作，多个属性之间用空格分开

##2.树形结构

#例：

<dl class="">

<dt>

<a href="https://www.baidu.com">

<img src="https://imgs.doubanio.com/viw/photo/abcd" alt="菇宝" class=""/>

</a>

</dt>

<dd>

<a href="https://blabla" >

</dd>

</dl>

#第一个元素是<dl>,在这个元素的起始和终止标签内，

#又有几个标签分别起始和终止：<dt>,<a>和<dd>。

#<dt>和<dd>标签作为同级标签都包含在<dl>元素内，

#<a>标签则包含在<dt>标签内。

#HTML还有注释、保留字符和特殊字符、文档定义类型等

##6.1.2 R语言中HTML的解析

#对于HTML，R语言无法直接分析，需要先转换，这个过程就是HTML解析

#为了将HTML文件转换为结构化数据

#需运用一种能够理解HTML结构含义的程序

#并重建HTML文件隐含的层次结构

#使得HTML内容转变为R语言可以分析的形式

#在R语言中，通常使用XML包中的htmlParse()函数来解析HTML文件

#XML有着以C语言为基础的libxml2库的接口

#install.packages(XML)

library(XML)

#install.packages(bitops)

library(bitops)

#install.packages(RCurl)

library(RCrul)

temp = getURL('http://movie.douban.com.subject/blabla')

fanghua = htmlParse(temp)

fanghua

## <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">

## <html>

## <head><title>301 Moved Permanently</title></head>

## <body bgcolor="white">

## <center><h1>301 Moved Permanently</h1></center>

## <hr>

## <center>nginx</center>

## </body>

## </html>

##

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pdc31czy CSDN认证博客专家 CSDN认证企业博客

码龄5年

57: 原创

72万+: 周排名

3万+: 总排名

4万+: 访问

: 等级

740: 积分

134: 粉丝

112: 获赞

6: 评论

274: 收藏

私信

关注

热门文章

分类专栏

个人笔记 19篇
MATLAB 7篇
Python 14篇
Linux 3篇
TensorFlow 8篇
R 29篇

最新评论

Linux配置Tensorflow2 GPU环境
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
Linux配置Tensorflow2 GPU环境
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
LINUX Drive CUDA cuDNN Anaconda TensorFlow2
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
R语言-图像分析
今天吃苹果了吗: 您好老师，想请教一下r语言可以读取bmp图像文件的文件头和位图数据吗
R语言-模型训练与调参
lhzdmxxb: >Profile = rfe(x, y, sizes = subsets, rfeControl = ctrl) >Error in rfe.default(x, y, sizes = subsets, rfeControl = ctrl) : there should be the same number of samples in x and y 请问这种错误怎么解决啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。