Python网络爬虫-BeautifulSoup使用

BeautifulSoup是一个强大的网页解析工具,它借助网页的结构和属性等特性来解析网页。有了它就不用再去写一些复杂的正则表达式来匹配我们想要的信息,只需要简单的几条语句就能完成网页中某个元素的提取。

一、简介

简单来说,BeautifulSoup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。官网的介绍如下:

  1. Beautiful Soup提供了一些简单的方法和Pythonic习语,用于导航,搜索和修改解析树:用于剖析文档和提取所需内容的工具包。编写应用程序不需要太多代码。
  2. Beautiful Soup会自动将传入的文档转换为Unicode,将传出的文档转换为UTF-8。您不必考虑编码,除非文档未指定编码且Beautiful Soup无法检测到编码。然后你只需要指定原始编码。
  3. Beautiful Soup位于流行的Python解析器之上,如lxmlhtml5lib,允许您尝试不同的解析策略或强劲速度以获得灵活性。

所以说,使用它能够省去很多繁琐的提取工作,提高了解析效率。

在使用BeautifulSoup前,需要安装BeautifulSoup,一般anaconda会包含这个库不需要安装,优先安装anaconda3版本,省去很多安装库的麻烦。

二、基本用法

from bs4 import BeautifulSoup

html =  """
<html><head><title>The Dormouse’ s story</title></head>
<body >
<p class="story" name="dormouse">Once upon a time there were three little sisters; and their names were 
<a href="http://example.com/elsie" class="sister" id="linkl">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值