一、BeautifulSoup库简介
该库是一个非常优秀的python第三方库,能够对HTML、XML等格式进行解析,并且提取相关信息。
抽象的介绍它的作用就是,他能够把你给他的文档当做一锅汤,并熬制这锅汤。
安装方法:在cmd界面用pip进行安装,这里安装的是BeautifulSoup4也叫bs4。
二、BeautifulSoup的简单演示(practice_5)
这里首先给出一个用于演示的html页面:
http://python123.io/ws/demo.html
现在我们想要获取这个html页面的源代码,有两种方式:一是用浏览器在页面上右键查看源代码,二则是使用爬虫自动爬取。
我们使用如下代码:
- 这里的bs4是beautifulsoup4库的简写,第二行语句的意思是从BeautifulSoup4库中导
- BeautifulSoup这个类。
- 随后使用的BeautifulSoup()方法,是对返回的html内容进行解析,对html内容进行解析的语法是:
- BeautifulSoup(html页面内容,"html.parser")
- 一共有两个变量,一个是待解析的内容,一个是相应的解析器。
- 执行上述语句,如果可以打印出html标准格式的代码内容,则说明BeautifulSoup库安装成功。
- 最后一行代码调用的prettify()方法,是对代码进行美化,即在文本中添加换行符,此外也可对单个标签调用此方法,使其更易于阅读。
三、BeautifulSoup库的基本元素
1、理解BeautifulSoup类
首先我们要介绍对BeautifulSoup库的理解