【MOOC】Python网络爬虫与信息提取-北京理工大学-part 2

【第二周】 网络爬虫之提取

Beautiful Soup库入门

Beautiful Soup库的安装与测试

中文文档:Beautiful Soup 4.4.0 文档
安装方式:pip install beautifulsoup4
测试网站(http://python123.io/ws/demo.html)的源代码(当然用requests库获取便可):

<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>
</body></html>

测试代码和对应的部分输出:
这里写图片描述
这里写图片描述
注: prettify函数的作用是:打印一下 soup 对象的内容,进行格式化输出,可以看到上面的该函数的输出的形式很适合我们直接阅读。另外,该函数使用得比较多,因此要多留意一下。更多的细节下面的“基于bs4库的HTML格式输出”章节。

常用使用方法:
这里写图片描述

Beautiful Soup库基本元素

Beautiful Soup库,也叫beautifulsoup4或 bs4,约定引用方式如下,即主要是用BeautifulSoup类:

from bs4 import BeautifulSoup

对库的理解:
这里写图片描述

这里写图片描述

其他解析器:
这里写图片描述

对标签的理解:
这里写图片描述

对标签的进一步说明:
这里写图片描述

以之前的demo.html为例子:

在浏览器上显示为:
这里写图片描述

使用requests库爬取的效果:
这里写图片描述

具体分析demo的基本元素:
这里写图片描述

注意:
1.soup.a是指将soup中的名字为a的标签(在HMTL5中 代表 链接标签)提取出来
2.当HTML文档中存在多个相同对应内容时,soup.返回第一个
3.上面的tag的输出是将原先的tag的属性按照属性的字母序重新排列得到的。
原先的是:

<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> 

输出的是:

<
  • 5
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值