R语言爬虫的html基础

最新推荐文章于 2024-05-01 02:30:22 发布

大数据技术派

最新推荐文章于 2024-05-01 02:30:22 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/ddxygq/article/details/101351581

版权

0?wx_fmt=jpeg

网页是构成网站的基本元素，网页又是由一些更基本的元素构成。想要网络爬虫或多或少还是需要一点简单的html网页基础，尤其是网页布局，因为我们一般需要逐步定位我们需要内容所属标签，最终获得所需要的内容。

各种标签

标题标签：<h1></h1>、<h2></h2>、<h3></h3>、<h4></h4>、<h5></h5>、<h6></h6>
段落标签p：<p></p>这种形式，网页中经常用来放大量文字。
链接标签a：<a href = "链接地址">链接文本</a>，这是普通文本链接格式。
链接文本就是引导我们点击的位置，链接地址就是点击这个链接后将要跳转（进入）的新的页面。我们一般做网络爬虫时，比如招聘网站，就需要爬取链接文本（职位名称），和链接地址（职位详细描述页面地址），当然了，一般还要爬取职位发布时间，工资、地域等。
列表标签：
表格标签： <table>、<tbody>、<tr>、<th>和<td>

属性class和id

网页制作中的对象属性class和id有什么区别，id = "value_1"，相当于给一个对象起了一个名字、贴了一个标记，好比一个人对应一个身份证号码；class = "value_2"，是把一类对象起一个名字，比如男人（短发），这是一个很多对象的集合，那么看到男人，我们就会自然想到短发。

id:比如我们要定位：<h2 id ="title">这是一个标题</h2>，我们要从一张网页中的各种标签中定位到这个标题，需要这样表示“#title”就表示这个二级标题。
class：比如我们要定位：<span class ="title">这是一个"span"区域</span>，就需要写“.title”就表示这个“span”区域。

一般，爬虫时都要根据“class”和“id”属性值定位相应标签位置，在R语言中就是："class"用“.”；"id"用“#”，即".+class值"，"#+id值"，其它编程语言具体爬虫格式根据语言而定。

容器

网页中最常用的容器就是"div"，可以把文字、标签（比如：链接、段落、标题等）放在里面，爬虫时一般第一步就需要定位到元素所在"div"，然后逐步定位，具体会在下一节介绍。

如下图所示： 0?wx_fmt=png 我们以新浪网内地新闻第二条为例，这条新闻在"class"属性值为"news-item"的"div"里面，标题标签"h2"里面又放了一个"a"标签即链接，里面有链接地址和文本（新闻标题），接着又是一个"class"属性值为"info clearfix"的"div"，它们都在"class"属性值为"news-item"的"div"里面。