【Python爬虫_1】爬取巴比特社区前5页列表和内容;

最新推荐文章于 2022-08-02 16:18:27 发布

MinorW

最新推荐文章于 2022-08-02 16:18:27 发布

阅读量839

点赞数

分类专栏： python爬虫实战

本文链接：https://blog.csdn.net/weixin_42024812/article/details/87998039

版权

python爬虫实战专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一个Python爬虫项目的实现过程，目标是从巴比特论坛抓取前五页的帖子标题和链接。使用了requests库进行网页请求，BeautifulSoup库进行HTML解析，并通过json将数据保存为文件。爬虫按步骤详细展示了如何获取数据、解析数据并存储。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests
from bs4 import BeautifulSoup
import json
import time

"""需求：爬取巴比特论坛的前5页title和内容"""

class BtcSpider(object):
    def __init__(self):
        self.url = "https://bbs.8btc.com/forum-61-{}.html"
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.20 Safari/537.36"
        }

        # 保存列表页的数据
        self.data_list = []


    # 1.发送请求
    def get_response(self, url):
        response = requests.get(url=url, headers=self.headers)
        data = response.content.decode()
        # print(data)
        return data

    # 2.解析数据list
    def parse_list_data(self, data):
        # 1.转类型
        soup = BeautifulSoup(data, 'lxml')

        # 2.解析内容 取出所有类的选择器 A
        title_list = soup.find_all(attrs={'class': 'link-dark-major font-bold bbt-block'})
        for title in title_list:
            list_dict_data = {}
            list_dict_data["title"] = title.get_text()
            list_dict_data["detail_url"] = title.get("href")

            self.data_list.append(list_dict_data)


    # 3.保存数据
    def save_data(self, data, file_path):
        data_str = json.dumps(data)
        with open(file_path, 'w', encoding="utf-8")as f:
            f.write(data_str)

    # 4.启动
    def start(self):
        # 列表页面请求(1-5页)
        for i in range(1, 6):
            url = self.url.format(i)
            # 发送请求
            data = self.get_response(url)
            # 解析数据
            self.parse_list_data(data)
            time.sleep(5.2)
        # 保存
        self.save_data(self.data_list, "04-btc_list.json")


if __name__ == "__main__":
    BtcSpider().start()