爬虫之bs4解析

目录

 

bs4解析-HTML语法

bs4拿到想要的自己的内容,通过标签名精准拿到数据


bs4解析-HTML语法

bs4解析比较简单,但是呢,首先你需要了解一丢丢的html知识,然后再去适应bs4去提取,逻辑和编写难度就会非常简单和清晰。

HTML(Hyper Text Markup Language)超文本标记语言,是我们编写网页的最基本也是最核心的一种语言,其语法规则就是用不同的标签对网页上的内容进行标记

从而使网页显示除不同的展示效果。

<h1>
     我爱你
</h1>

<h1 align="center">
    i love you
</h1>
# h1: 标签
# align: 属性
# center: 属性值
<标签 属性="属性值">被标记的内容</标签>
eg:<a href="hhtp://www.baidu.com">周杰伦</a>

上述代码的含义是在页面显示“我爱你”三个字,但是我爱你三个字被“<h1>"和”</h1>标记了。白话就是被括起来了。被H1这个标签括起来了,这个时候,浏览器在展示的时候就会让我爱你变粗变大。俗称标题,所以HTML的语法就是用类似这样的标签对页面内容进行标记,不同的标签表现出来的效果不一样

h1: 一级标题

h2:   二级标题

p: 段落

font:字体(被废弃了,但是能用)

body:主体

简单的科普下,如果想更深入的了解可以去前端课程

 

<h1>
    i love you
</h1>
<h1 align="center">
    i really love you
</h1>

 

首先,上面两个标签都是h1标签,都是一级标题,但是下面这个会显示在中间,也就是说,通过xxx=xxx这种形式对h1标签进一步的说明了,那么这种语法在

html中被称为标签的属性,并且属性可以有多个,例如:

<body text="green" bgcolor="#eee">

你看我的颜色,贼健康
</body>

总结,html语法

<标签 属性="值" 属性="值">
      被标记的内容
</标签>

bs4拿到想要的自己的内容,通过标签名精准拿到数据

<div id="1" class="h1">周杰伦</div>
<div id="2" class="h1">周</div>
<div id="3" class="h2">杰</div>
<div id="4" class="h3">伦</div>

# 通过标签名来拿到数据
# div -> id:3 => 杰
# div -> class:h3 => 伦
#bs4

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值