python学习笔记(bs4)

最新推荐文章于 2024-07-16 14:39:34 发布

mkgdjing

最新推荐文章于 2024-07-16 14:39:34 发布

阅读量3.4k

点赞数 3

分类专栏：笔记

本文链接：https://blog.csdn.net/mkgdjing/article/details/87784840

版权

本文介绍了BeautifulSoup4（BS4）的基本概念和使用，包括BS4的4种对象：BeautifulSoup对象、Tag对象、NavigableString和注释。详细讲解了如何通过BS4解析和导航HTML页面，还提到了不同解析器的优缺点，如html.parser、lxml和html5lib。此外，文章还涵盖了爬取和整理个人博客的内容。

摘要由CSDN通过智能技术生成

bs4简介

0. 概括

获取页面: urllib, requests
解析页面信息: 正则表达式, BeautifulSoup4(BS4)

1. BS4简介

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个
工具箱，通过解析文档为tiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。
你不需要考虑编码方式，除非文档没有指定一个编一下原始编码方式就可以了。

2. BS4的4种对象

2-1. BeautifulSoup对象

2-2. Tag对象

Tag就是html中的一个标签，用BeautifulSoup就能解析出来Tag的具体内容，
具体的格式为soup.name,其中name是html下的标签。

2-3.NavigableString

2-4.注释

from bs4 import BeautifulSoup
html = """
<html>
<head><title>story12345</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><span>westos</span><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister1" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify()) #使<html>格式输出

# 1. 根据标签获取内容;


# ******************标签的常用属性************************
# 根据格式化， 如果title只有一个， 根据标签可以获取
print(soup.title)
print(type(soup.title))
p

最低0.47元/天解锁文章

mkgdjing

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
python学习笔记(bs4)

bs4简介0. 概括获取页面: urllib, requests解析页面信息: 正则表达式, BeautifulSoup4(BS4)1. BS4简介Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为tiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑...
复制链接

扫一扫