使用Beautiful Soup解析网页

3 使用Beautiful Soup解析网页

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。目前Beautiful Soup 3已经停止开发,大部分的爬虫选择使用Beautiful Soup 4开发。Beautiful Soup不仅支持Python标准库中的HTML解析器,还支持一些第三方的解析器,具体语法如下。

 

lxml解析器比较常用。

3.1 创建BeautifulSoup对象

要使用Beautiful Soup库解析网页首先需要创建BeautifulSoup对象,将字符串或HTML文件传入。

创建一个BeautifulSoup对象,使用格式如下。

BeautifulSoup("<html>data</html>") #通过字符串创建

BeautifulSoup(open("index.html")) #通过HTML文件创建

import requests
from bs4 import BeautifulSoup #pip install beautifulsoup4 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

#requests发送请求
rq = requests.get('http://www.tipdm.com/')
#BeautifulSoup实现网页解析
soup = BeautifulSoup(rq.text, 'lxml') #'lxml'表解析器

3.2 对象类型

3.2.1 Tag对象类型

(1)Tag对象为HTML文档中的标签,形如“<title>The Dormouse's story</title>”或“<p class="title"><b>The Dormouse's story</b></p>”等HTML标签再加上其中包含的内容便是Beautiful Soup中的Tag对象。

(2)通过Tag的名称属性可以很方便的在文档树中获取需要的Tag对象,通过该方法只能获取文档树中第一个同名的Tag对象,而通过多次调用可获取某个Tag对象下的分支Tag对象。通过find_all方法可以获取文档树中的全部同名Tag对象。

 

soup.head #返回head标签内容
soup.title #返回title标签内容
soup.body.li #返回的是第一个li标签
soup.find_all('li') #可返回所有li标签
type(soup.head) #bs4.element.Tag

(3)Tag有两个非常重要的属性:name和attributes。name属性可通过name方法来获取和修改,修改过后的name属性将会应用至BeautifulSoup对象生成的HTML文档。

a = soup.link
a.name #name属性返回的是标签名称
a.attrs #attrs属性返回的是该标签下面的属性和属性值

3.2.2 NavigableString对象类型

NavigableString对象为包含在Tag中的文本字符串内容,如“<title>The Dormouse‘s story</title>”中的“The Dormouse’s story”,使用string的方法获取,NavigableString对象无法被编辑,但可以使用replace_with的方法进行替换。

 

soup.title.string #可获取到title标签的文本内容
type(soup.title.string) #bs4.element.NavigableString
#更改标签里的文本内容
a = soup.title.string
a.replace_with('广东泰迪科技股份有限公司') #替换
soup.title.string 

3.2.3 BeautifulSoup对象类型

BeautifulSoup对象表示的是一个文档的全部内容。大部分时候,可以把它当作Tag对象。 BeautifulSoup对象并不是真正的HTML或XML的tag,所以并没有tag的name和attribute属性,但其包含了一个值为“[document]”的特殊属性name。

 

type(soup) #bs4.BeautifulSoup
soup.name #只返回[document]值
soup.attrs #BeautifulSoup对象类型没有attribute属性

3.2.4 Comment对象类型

Tag、NavigableString、BeautifulSoup几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象,文档的注释部分是最容易与Tag中的文本字符串混淆的部分。Beautiful Soup库中将文档的注释部分识别为Comment类型,Comment对象是一个特殊类型的NavigableString对象,但是当其出现在HTML文档中时,Comment对象会使用特殊的格式输出,需调用prettify方法。

 

markup = '<c><!--This is a markup--></b>'
markup_soup = BeautifulSoup(markup, 'lxml')
markup_soup.c.string
type(markup_soup.c.string) #bs4.element.Comment

3.3 搜索特定节点并获取其中的链接及文本

Beautiful Soup定义了很多搜索方法,其中常用的有find方法和find_all方法,两者的参数一致,区别为find_all方法的返回结果是值包含一个元素的列表,而find直接返回的是结果。find_all方法用于搜索文档树中的Tag非常方便,其语法格式如下。

BeautifulSoup.find_all(name,attrs,recursive,string,**kwargs)

find_all方法的常用参数及其说明如下。

 

find_all方法

(1)可通过多种参数遍历搜索文档树中符合条件的所有子节点。

(2)可通过name参数搜索同名的全部子节点,并接收多种过滤器。

(3)按照CSS类名可模糊匹配或完全匹配。完全匹配class的值时,如果CSS类名的顺序与实际不符,将搜索不到结果。

(4)若tag的class属性是多值属性,可以分别搜索tag中的每个CSS类名。

(5)通过字符串内容进行搜索符合条件的全部子节点,可通过过滤器操作。

(6)通过传入关键字参数,搜索匹配关键字的子节点。

 

import requests
from bs4 import BeautifulSoup #pip install beautifulsoup4

#requests发送请求
rq = requests.get('http://www.tipdm.com/')
#BeautifulSoup实现网页解析
soup = BeautifulSoup(rq.text, 'lxml') #'lxml'表解析器

soup.find_all('title') #返回的是列表
soup.find('title') #直接返回结果

#获取标签内容,使用get_text()方法
soup.find_all('title')[0].get_text()
soup.find('title').get_text()

soup.find('nav', class_="nav").find('ul', id="menu").find_all('li')[0].find('a').get_text() #class_ 这里加一个下划线是因为避免与python关键字冲突所以用一个下划线.

#find、find_all方法+for循环获取导航条全部数据
a = soup.find('nav', class_="nav").find('ul', id="menu").find_all('li')
list1 = []
for i in range(8):
    b = a[i].find('a').get_text()
    list1.append(b)

find、find_all方法+for循环获取导航条全部数据思路:先定位包含你想获取的全部数据的标签,像这里就是nav标签。然后再一个标签一个标签找下来,直到找到你想获取的数据。像li标签有多个,且想都获取的话,就用find_all方法,像nav标签此处只出现一个,就可以直接用find方法。

3.4 爬虫练习requests+beautifulsoup

 

import requests
from bs4 import BeautifulSoup

url = 'http://www.tipdm.com/xwzx/index.jhtml'
#发送请求
rq = requests.get(url)

#解析网页
soup = BeautifulSoup(rq.text, 'lxml')

a = soup.find('section', id="t505").find_all('div', class_="item clearfix")
#构建空列表用于存放所有的新闻标题
all_title  = []
for i in range(5):
    title = a[i].find('div', class_="con").find('h1').find('a').get_text() #新闻标题
    all_title.append(title)

#构建空列表用于存放所有的新闻内容
all_content = []
for j in range(5):
    content = a[i].find('div', class_="con").find('div', class_="des").get_text() #新闻内容
    all_content.append(content)

 

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以为你解答这个问题。Beautiful Soup 是一个 Python 的第三方库,主要用于解析 HTML 和 XML 的文档。使用 Beautiful Soup 可以轻松地获取网页中的各种信息,例如标签、属性、文本等等。 下面是使用 Beautiful Soup 解析网页的基本步骤: 1. 安装 Beautiful Soup 库。可以使用 pip 工具来安装,命令如下: ``` pip install beautifulsoup4 ``` 2. 导入 Beautiful Soup 库。在 Python 代码中,可以使用以下语句导入 Beautiful Soup 库: ```python from bs4 import BeautifulSoup ``` 3. 获取网页内容。可以使用 Python 的 requests 库来获取网页内容,例如: ```python import requests url = 'https://www.example.com' response = requests.get(url) html = response.text ``` 4. 使用 Beautiful Soup 解析网页。可以使用以下语句来创建一个 Beautiful Soup 对象,并解析网页内容: ```python soup = BeautifulSoup(html, 'html.parser') ``` 其中,第一个参数是网页内容,第二个参数是解析器类型,这里使用的是 Python 的内置解析器。 5. 提取网页中的信息。使用 Beautiful Soup 提供的各种方法,可以轻松地提取网页中的各种信息,例如标签、属性、文本等等。例如: ```python # 获取网页中的标题 title = soup.title.string # 获取所有的链接 links = soup.find_all('a') # 获取第一个 div 标签的 class 属性值 div_class = soup.find('div')['class'] ``` 这就是使用 Beautiful Soup 解析网页的基本步骤。当然,在实际应用中,还需要根据具体的需求来选择相应的方法和参数。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值