爬虫使用soup解析（并保存成固定格式文件）

最新推荐文章于 2024-04-17 13:52:02 发布

谁说大象不能跳舞

最新推荐文章于 2024-04-17 13:52:02 发布

阅读量883

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/jiahonhyu0609/article/details/89944593

版权

本文介绍如何利用Python的BeautifulSoup库爬取安徽省博物馆的网站信息，并详细讲解如何解析网页数据，最终将获取的数据保存为固定格式的文件。

摘要由CSDN通过智能技术生成

爬取安徽省博物馆：

import requests
from bs4 import BeautifulSoup

url = 'http://www.ahm.cn/Service/Leaveword/zxzx#page='

def get_info(url, data=None):
    wd_data = requests.get(url)
    soup = BeautifulSoup(wd_data.text, 'lxml')

    questions = soup.select('#articles > ul > li > div.question.item')
    times = soup.select('#articles > ul > li > p > span:nth-child(2)')
    replys = soup.select('#articles > ul > li > div.answer.item')
    primary_class = '安徽省博物馆'
    print(questions)

    for question, time, reply in zip(questions, times, replys):
        data = {
            'question': question.get_text(),
            'time': time.get_text(),
            'reply': reply.get_text(),
            'primary': primary_class
        }
        #print(data)
        with open('安徽博物馆.txt', 'a', encoding='ut