python爬虫入门基础 | BeautifulSoup的基本使用

本文介绍了Python爬虫库BeautifulSoup的基础使用,包括准备静态页面、节点对象属性和find_all()、select()等核心函数的应用示例。
摘要由CSDN通过智能技术生成

你要足够努力,才能够游刃有余
这篇文章会花一定的篇幅来描写bs4库中BeautifulSoup的一些基本使用方法,适用于爬虫的基础,不是特别的系统。

1.准备工作

首先找一个静态页面用来BeautifulSoup的基本测试。baidu.html下载
由于用于测试,它的属性比较简单。
在这里插入图片描述

2.bs4节点对象的基本属性

bs4将复杂的html文档转换为一个复杂的树形结构,每个节点都是python对象,所有对象的属性可以归纳为四种
-Tag
-NavigableString
-BeautifulSoup
-Comment

他所有节点的查找都是通过 BeautifulSoupf.标签名称 来查找的。

  1. Tag
from bs4 import BeautifulSoup
file = open("./baidu.html","rb")
html = file.read().decode("utf-8");
bs = BeautifulSoup(html,"html.parser")   #以html的形式解析
# 1.Tag 标签及内容;拿到它所找的第一个内容
print(bs.title)                   #找到第一个title节点以及里面的内容
print(type(bs.title))             #类型为Tag

运行结果:
在这里插入图片描述

  1. NavigableString
# 2.NavigableString 类型;标签里的内容,字符串
print(bs.title.string)            #提取Tag里面的字符串
print(type(bs.title.string))      #类型为NavigableString
print(bs.a.attrs)                 #以键值对的形式保存内容

运行结果:

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值