Python爬虫学习笔记之BeautifulSoup入门

本文是关于Python爬虫中BeautifulSoup库的学习笔记,介绍了BeautifulSoup的安装、导入、创建对象、解析器选择、遍历HTML节点的方法,包括下行、上行和平行遍历,以及prettify方法的使用。此外,还提及了BeautifulSoup在Python3中的编码处理和基于bs4的HTML文档查找方法。
摘要由CSDN通过智能技术生成

BeautifulSoup库学习总结:

简介:

BeautifulSoup是用来解析html/xml的工具,我们在爬虫保存下我们需要的html文档后需要用它来进行文档的解析与信息提取工作。

安装:

在管理员权限下打开cmd,输入pip install BeautifulSoup4

导入:

from bs4 import BeautifulSoup

创建BeautifulSoup对象:

Soup = BeautifulSoup(“要解析的页面”,”解析器”)

Demosoup = BeautifulSoup(r.text,”html.parser”  

输出:

print(soup.prettify())

BeautifulSoup库解析器: 

解析器

使用方法

条件

bs4html解析器

BeautifulSoup(mk,’htmlparser’)

安装bs4

lxmlhtml解析器

BeautifulSoup(mk,’lxml’)

安装lxml

lxmlxml解析器

BeautifulSoup(mk,’xml’)

安装lxml

Html5lib的解析器

BeautifulSoup(mk,’html5lib’)

安装html5lib


BeautifulSoup类基本元素:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值