R语言爬虫的html基础

0?wx_fmt=jpeg


网页是构成网站的基本元素,网页又是由一些更基本的元素构成。想要网络爬虫或多或少还是需要一点简单的html网页基础,尤其是网页布局,因为我们一般需要逐步定位我们需要内容所属标签,最终获得所需要的内容。

各种标签

  1. 标题标签:<h1></h1>、<h2></h2>、<h3></h3>、<h4></h4>、<h5></h5>、<h6></h6>

  2. 段落标签p:<p></p>这种形式,网页中经常用来放大量文字。

  3. 链接标签a:<a href = "链接地址">链接文本</a>,这是普通文本链接格式。

    链接文本就是引导我们点击的位置,链接地址就是点击这个链接后将要跳转(进入)的新的页面。我们一般做网络爬虫时,比如招聘网站,就需要爬取链接文本(职位名称),和链接地址(职位详细描述页面地址),当然了,一般还要爬取职位发布时间,工资、地域等。

  4. 列表标签

  5. 表格标签: <table>、<tbody>、<tr>、<th>和<td>

属性class和id

网页制作中的对象属性class和id有什么区别,id = "value_1",相当于给一个对象起了一个名字、贴了一个标记,好比一个人对应一个身份证号码;class = "value_2",是把一类对象起一个名字,比如男人(短发),这是一个很多对象的集合,那么看到男人,我们就会自然想到短发。

  • id:比如我们要定位:<h2 id ="title">这是一个标题</h2>,我们要从一张网页中的各种标签中定位到这个标题,需要这样表示“#title”就表示这个二级标题。


  • class:比如我们要定位:<span class ="title">这是一个"span"区域</span>,就需要写“.title”就表示这个“span”区域。

一般,爬虫时都要根据“class”和“id”属性值定位相应标签位置,在R语言中就是:"class"用“.”;"id"用“#”,即".+class值","#+id值",其它编程语言具体爬虫格式根据语言而定。

容器

网页中最常用的容器就是"div",可以把文字、标签(比如:链接、段落、标题等)放在里面,爬虫时一般第一步就需要定位到元素所在"div",然后逐步定位,具体会在下一节介绍。

如下图所示:0?wx_fmt=png        我们以新浪网内地新闻第二条为例,这条新闻在"class"属性值为"news-item"的"div"里面,标题标签"h2"里面又放了一个"a"标签即链接,里面有链接地址和文本(新闻标题),接着又是一个"class"属性值为"info clearfix"的"div",它们都在"class"属性值为"news-item"的"div"里面。

点击阅读原文。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据技术派

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值