Python爬虫 BeautifulSoup库

最新推荐文章于 2024-08-30 10:01:19 发布

敏敏1020

最新推荐文章于 2024-08-30 10:01:19 发布

阅读量131

点赞数

分类专栏： Python 文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37518413/article/details/122184411

版权

Python 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

安装
- pip3 install beatfifulsoup4
用法
- 解析库
  - Python标准库
    - BeautifulSoup(markup, 'html.parser')
  - lxml HTMLj解析器
    - BeautifulSoup(markup, 'lhtml')
    - 需要安装C语言库
  - lxml XML解析器（最常用）
    - BeautifulSoup(markup, 'lxml')
    - 需要安装C语言库
  - html5lib
    - BeautifulSoup(markup, 'html5lib')
- 基本使用
  - from bs4 import BeautifulSoup
  - soup = BeautifulSoup(html, 'lxml')
  - print(soup.pretty)格式美化
  - print(soup.title.string)
- 选择元素
  - print(soup.title)
  - print(soup.p)默认打印第一个p标签
- 获取名称
  - print(soup.title.name)
- 获取属性
  - print(soup.p.attrs['name'])
  - print(soup.p.['name'])
- 获取内容
  - print(soup.p.string)
- 嵌套选择
  - soup.head.title.string
- 子节点和孙节点
  - soup.p.contents 把子节点用一个列表的方式返回
  - soup.p.children
  - for i,child in enumerate(soup.p.children)
    - print(i,child)
  - soup.p.descendants 获取子孙节点
  - for i,child in enumerate(soup.p.descendants)
    - print(i,child)
- 父节点和祖先节点
  - soup.a.parent 获取a的父节点
  - soup.a.parents 获取a的祖先节点
- 兄弟节点
  - list(enumerate(soup.a.next_siblings))
  - list(enumerate(soup.a.previous_siblings))
- 标准选择器
  - find_all(name, attrs, recursive, text, **kwargs)
    - 可以根据标签名、属性、内容查找文档
    - name
      - soup.find_all('ui')
      - soup.find_all('ui')[0]
      - for li in soup.find_all('ui')
        print(li)
    - attrs
      - soup.find_all(attrs={'id':'list-1'})
      - soup.find_all(id='list-1')
      - soup.find_all(class='element')
    - text
      - soup.find_all(text='Foo')
  - find(name, attrs, recursive, text, **kwargs)
  - find_parents() find_parent()
  - find_next_siblings() find_next_sibling()
  - find_previous_siblings() find_previous_sibling()
- CSS选择器
  - soup.select()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

敏敏1020 CSDN认证博客专家 CSDN认证企业博客

码龄8年

80: 原创

31万+: 周排名

132万+: 总排名

23万+: 访问

: 等级

1342: 积分

42: 粉丝

115: 获赞

15: 评论

391: 收藏

私信

关注

热门文章

分类专栏

测试基础 11篇
自动化测试 13篇
服务端测试 12篇
接口测试
白盒测试
Rpc
Redis
性能测试 3篇
测试工具 2篇
Jenkins 4篇
Jmeter 2篇
Postman 8篇
Linux 8篇
Python 4篇
Java
Vue 6篇
Docker 1篇
数据库 1篇
职业发展 3篇

最新评论

Postman之newman插件安装及使用
Huahua25864_: npm install -g newman npm WARN deprecated har-validator@5.1.5: this library is no longer supported npm WARN deprecated uuid@3.4.0: Please upgrade to version 7 or higher. Older versions may use Math.random() in certain circumstances, which is known to be problematic. See https://v8.dev/blog/math-random for details. D:\Nodejs\node_global\newman -> D:\Nodejs\node_global\node_modules\newman\bin\newman.js + newman@6.1.0 updated 1 package in 7.479s 报错了呜呜呜呜
Postman之newman插件安装及使用
Huahua25864_: npm install -g newman
如何升级PIP命令
高端你杭哥: 谢谢o(^o^)o
如何升级PIP命令
WtcSky: 如果你已经设置环境变量了，那么在哪里都可以
如何升级PIP命令
坚果园: 答主，这个是在什么目录下呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。