Python中第三方库bs4中的BeautifulSoup的学习，解析网页（一）

「已注销」

于 2023-03-26 22:18:36 发布

阅读量194

点赞数

分类专栏： python 文章标签： python beautifulsoup 学习

本文链接：https://blog.csdn.net/qq_45969502/article/details/129785379

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

BeautifulSoup简单介绍

BeautifulSoup 可以从 HTML 或 XML 文件中提取数据。

BeautifulSoup的解析器

BeautifulSoup中的基本简单应用

例子：实现对豆瓣top250中文名字的爬取

import requests     # 爬取到了top250的HTML，之后需要解析网页，正则表达式，BS和lxml三种方法
from bs4 import BeautifulSoup


def spiders_1():  # 爬取top250中电影的中文名字
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.51',
    }
    page = 1
    for i in range(page):
        url = f'https://movie.douban.com/top250?start={i*25}'

        response = requests.get(url=url, headers=headers)
        soup = BeautifulSoup(response.text, 'lxml')    
        # 将网页响应体的字符串转化成soup对象, lxml是解析器

        content = soup.find('div', class_='info').a.span.text.strip()    
        print(content)    # div为元素，strip()去字符串左右空格（去掉在这影响不大）
                            # .a.span.text表示div中的a中的span中HTML代码中的文本  
                                # 具体看网页源码结构
        content_list = soup.find_all('div', class_='info')
        # print(content_list)
        print("_____这是第%s页的电影_____" % (i + 1))
        for j in range(len(content_list)):
            content_title = content_list[j].div.a.span.text.strip()
            print(content_title)


if __name__ == '__main__':
    spiders_1()

soup.find()对符合条件的第一条数据进行返回

soup.find_all()对符合条件的数据以列表的形式返回（for循环里仍然是对符合条件的第一条数据进行返回，所以只返回了中文名）,可去网页比对HTML代码思考。

结果如图所示（部分结果）：