Python网络爬虫入门版笔记 五、BeautifulSoup库的介绍和基本使用

一、BeautifulSoup库简介

该库是一个非常优秀的python第三方库,能够对HTML、XML等格式进行解析,并且提取相关信息。

抽象的介绍它的作用就是,他能够把你给他的文档当做一锅汤,并熬制这锅汤。

 

安装方法:在cmd界面用pip进行安装,这里安装的是BeautifulSoup4也叫bs4。

 

二、BeautifulSoup的简单演示(practice_5)

这里首先给出一个用于演示的html页面:

http://python123.io/ws/demo.html

现在我们想要获取这个html页面的源代码,有两种方式:一是用浏览器在页面上右键查看源代码,二则是使用爬虫自动爬取。

我们使用如下代码:

  • 这里的bs4是beautifulsoup4库的简写,第二行语句的意思是从BeautifulSoup4库中导
  • BeautifulSoup这个类。
  • 随后使用的BeautifulSoup()方法,是对返回的html内容进行解析,对html内容进行解析的语法是:
  • BeautifulSoup(html页面内容,"html.parser")
  • 一共有两个变量,一个是待解析的内容,一个是相应的解析器。
  • 执行上述语句,如果可以打印出html标准格式的代码内容,则说明BeautifulSoup库安装成功。
  • 最后一行代码调用的prettify()方法,是对代码进行美化,即在文本中添加换行符,此外也可对单个标签调用此方法,使其更易于阅读。

 

三、BeautifulSoup库的基本元素

1、理解BeautifulSoup类

首先我们要介绍对BeautifulSoup库的理解

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值