爬取百度贴吧照片并保存在本地 (python/BeautifulSoup)

最新推荐文章于 2022-02-11 22:05:01 发布

DRZ_2000

最新推荐文章于 2022-02-11 22:05:01 发布

阅读量536

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/DRZ_2000/article/details/105611731

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一前言

自从大二学习python，了解爬虫和机器学习（当然只是皮毛罢了）认真学习了大概一个多月后，自己就因为考试等其他各方面的因素将python弃置高阁，很久没有用了。
现在回头来看，后悔不已，只好捡起来，重新回顾，整理知识点。伤心的话就不说了，从现在开始，加油努力干！

二实现百度贴吧照片的爬取

代码如下：

import requests
import re
import lxml
from bs4 import BeautifulSoup
import os

class BaiduTieba:
    def __init__(self, name, page_count):
        self.url = "https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}"
        self.name = name
        self.page_count = page_count
        self.headers = {
            "User-Agent": "大家使用自己的headers"
        }

    def get_url_list(self): #获取页面url列表
        return [self.url.format(self.name, i * 50) for i in range(self.page_count)]

    def create_directory(self, page_num): #创建文件夹，并返回文件夹路径
        dir_name = "百度贴吧{}照片——第{}页".format(self.name, page_num)
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
        dir_path = os.getcwd() + '/' + dir_name
        return dir_path

    def parse_url(self, url): #分析页面url地址，返回该页所有图片的url列表
        response = requests.get(url)
        soup = BeautifulSoup(response.content.decode(), "lxml")
        pictures_list = soup.find_all("a", rel = "noreferrer", class_ = "thumbnail vpic_wrap")
        url_list = []
        for i in pictures_list:
            url_list.append(i.contents[0]['bpic'])
        return url_list

    def save_pictures(self, url_list, page_num): #保存图片
        dir_path = self.create_directory(page_num)
        for url in url_list:
            file_path = dir_path + '/' + "number{}.jpg".format(url_list.index(url) + 1)
            print("file_path = %s" % file_path)
            response = requests.get(url)
            with open(file_path, "wb") as file:
                file.write(response.content)
        print("第{}页保存完毕".format(page_num))

    def run(self): #实现主要逻辑
        #1. 构造url列表
        url_list = self.get_url_list()
        #2. 发送请求，获取响应
        for url in url_list:
            pictures_url_list = self.parse_url(url)
            #3. 保存图片
            self.save_pictures(pictures_url_list, url_list.index(url) + 1)

if __name__ == '__main__':
    name = input("请输入贴吧主人名称(如：刘亦菲)：")
    page_count = input("请输入爬取页面的数量(如：2)：")
    baidu_tieba = BaiduTieba(name, int(page_count))
    baidu_tieba.run()