11.5 用 BeautifulSoup 模块解析 HTML

Beautiful Soup 是一个模块,用于从 HTML 页面中提取信息(用于这个目的时,
它比正则表达式好很多)。BeautifulSoup 模块的名称是 bs4(表示 Beautiful  Soup,第 4 版)。要安装它,需要在命令行中运行 pip install 
beautifulsoup4(关于安装第三方模块的指导,请查看附录 A)。虽然安装时使用的名字是 beautifulsoup4,但要导入它,就使用 import bs4。
在本章中,Beautiful Soup 的例子将解析(即分析并确定其中的一些部分)硬盘上的一个HTML 文件。在 IDLE 中打开一个新的文件编辑器窗口,输入以下代码,并

保存为 example.html。或者,从 http://nostarch.com/automatestuff/下载它。
<!--  This  is  the  example.html  example  file.  -->

<html><head><title>The  Website  Title</title></head>
<body>
<p>Download  my  <strong>Python</strong>  book  from  <a  href="http:// inventwithpython.com">my  
website</a>.</p>
<p  class="slogan">Learn  Python  the  easy  way!</p>
<p>By  <span  id="author">Al  Sweigart</span></p>
</body></html>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大飞哥软件自习室

希望支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值