python网络爬虫与信息采取之解析网页（三）---- BeautifulSoup库的导航树实例

最新推荐文章于 2023-03-15 14:40:24 发布

淮左青衣

最新推荐文章于 2023-03-15 14:40:24 发布

阅读量1.2k

点赞数 1

分类专栏： python网络爬虫与数据采集文章标签：网络爬虫 python

本文链接：https://blog.csdn.net/qq_38329811/article/details/77118880

版权

python网络爬虫与数据采集专栏收录该内容

10 篇文章 0 订阅

订阅专栏

上篇我们讲到了通过标签的名称和属性来查找标签的findAll（),本篇将讲解如何通过标签在文档中的位置进行查找------导航树

一篇文章，可以将其标签分为子标签，父标签和兄弟标签。而导航树的功能就是先在文档中找到一个位置，根据网页源代码的架构，在该位置上进行前进（子标签），后退（父标签）或平移（兄弟标签），从而遍历全部标签，获取全部内容。

具体标签内容详见http://blog.csdn.net/qq_38329811/article/details/77108768，在这篇文章的知识图的搜索文档下有全部的属性，具体用法自行百度；

下面，我将用一个实例来详细讲解：

目标网站:http://www.pythonscraping.com/pages/page3.html

目的：获取商品的名称，描述和价格；

代码如下:

import requests
from bs4 import BeautifulSoup
import bs4


url = "http://www.pythonscraping.com/pages/page3.html"
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
html = r.text
soup = BeautifulSoup(html, "html.parser")
uniolist = []
i = 0
for tr in soup.find('table').children:
    #print(type(tr))
    if isinstance(tr, bs4.element.Tag):
        if i == 0:
            ths = tr.find_all('th')
            uniolist.append([ths[0].string,ths[1].string,ths[2].string])
        else:
            ths = tr.find_all('td')
            uniolist.append([ths[0].string, ths[1].get_text(), ths[2].string])
        i = i + 1
for i in range(5):
    u = uniolist[i]
    print(u[0],u[1],u[2])

其中的