Python BeautifulSoup爬虫实践

最新推荐文章于 2024-03-19 20:34:59 发布

幸运的Mozi

最新推荐文章于 2024-03-19 20:34:59 发布

阅读量621

点赞数 1

分类专栏： Python 进阶文章标签： python

本文链接：https://blog.csdn.net/mozihao123/article/details/118942905

版权

Python爬虫之BeautifulSoup 使用实践@[TOC](Hello world)Python爬虫 - BeautifulSoup（以下内容皆在Pycharm环境下）今日之学习收获：如何使用BeautifulSoup解析网页并获得所需网页信息Beautiful Soup 是一个可以从HTML或XML文件中提取数据信息的Python库。由于 BeautifulSoup 是基于Python，相对来说速度会比 Xpath 慢点，但其功能也是非常的强大。中文官网：https://www.crum

摘要由CSDN通过智能技术生成

如何使用BeautifulSoup解析网页并获得所需网页信息

Python爬虫 - BeautifulSoup

（以下内容皆在Pycharm环境下）

BeautifulSoup 介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据信息的Python库。由于 BeautifulSoup 是基于Python，相对来说速度会比 Xpath 慢点，但其功能也是非常的强大。

中文官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

BeautifulSoup 应用

工具包BeautifulSoup的安装和使用:

安装：pip install beautifulsoup4
使用：from bs4 import BeautifulSoup

BeautifulSoup的解析原理

将本地或者页面源码数据加载到bs对象中
通过调用对象属性或者方法进行标签定位和数据提取

相关实用代码汇总

HTML文件解析标签类型包括：html、head、body、div、p、a、ul、li等，所有的数据解析都是基于soup对象的，下面介绍各种解析数据的方法：

soup.tagName

返回的是该标签第一次出现的内容，以a标签为例：soup.a 或 soup.div

soup.find(‘tagName’), find()主要是有两个方法：

      1）返回某个标签第一次出现的内容，等同于上面的soup.tagName
            soup.find('a')
      2）属性定位：用于查找某个有特定性质的标签
           soup.find('a', id='谷歌')
           如果遇到要查询class情况，需要使用class_来代替：
           soup.find('div', class_='na

最低0.47元/天解锁文章

幸运的Mozi

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python BeautifulSoup爬虫实践

Python爬虫之BeautifulSoup 使用实践@[TOC](Hello world)Python爬虫 - BeautifulSoup（以下内容皆在Pycharm环境下）今日之学习收获：如何使用BeautifulSoup解析网页并获得所需网页信息Beautiful Soup 是一个可以从HTML或XML文件中提取数据信息的Python库。由于 BeautifulSoup 是基于Python，相对来说速度会比 Xpath 慢点，但其功能也是非常的强大。中文官网：https://www.crum
复制链接

扫一扫