BeautifulSoup库用法总结

0.写在前面

在python的爬虫中,经常需要用到强大的beautifulsoup库,如之前写的股票数据的爬取中就用到了它。在这里,将详细总结beautifulsoup的用法,来巩固相关知识。以下便是我从各种网站搜集的资料,在这里做一个汇总。(我从不生产知识,我只是知识的搬运工)

1.基本介绍

12115116-863550694883e237.png
beautifulsoup

2.安装/引用

安装:win平台中‘以管理员身份运行’cmd,执行pip install beautifulsoup4即可安装
引用:from bs4 import BeautifulSoupimport bs4即可

3.使用方法

12115116-07216cf2034f6740.png
先煲制一锅汤

12115116-3adeee2b7b422cab.png
解析器
12115116-ab0ce5788d484997.png
基本元素

12115116-03e70e47aee95652.png
对应各元素

12115116-473a9641f078d0b2.png
一个用于接下来分析的demo

12115116-55f5f65f11c65c0e.png
tag标签

12115116-fe07fb51f38f4355.png
tag.name

12115116-e631ae186bdf5c35.png
attrs

12115116-9272286424fc2c99.png
string

12115116-951863e4d3121d6b.png
comment
如果不想输出内容的注释,可以写一个if语句:
if type(newsoup.b.string)==element.Comment:
    print (newsoup.b.string)

bs4库将任何HTML输入都变成utf-8编码,python3.x默认支持编码是utf-8编码,解析无障碍

12115116-5daf3ec8d85e28ba.png
beautifulsoup库基本入门
12115116-76b26547ad43c8eb.png
HTML基本格式
12115116-bc8e61f618311107.png
标签树的下行遍历
12115116-5553aecba3f2ec3c.png
标签树的上行遍历

12115116-9c167553a07b78a9.png
标签树的平行遍历

本文参考中国大学MOOC / kikaylee的专栏

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值