python爬虫项目（十三）：爬取各类网盘的资源链接，搭建资源搜索平台

人工智能_SYBH

于 2024-10-01 23:32:14 发布

阅读量476

点赞数 21

分类专栏：爬虫试读文章标签： python 爬虫 jvm 网络爬虫

本文链接：https://blog.csdn.net/m0_68036862/article/details/142676150

版权

爬虫试读专栏收录该内容

20 篇文章 0 订阅

订阅专栏

引言

随着信息时代的发展，网盘作为一种重要的数据存储和分享工具，越来越受到用户的青睐。通过爬取各类网盘的资源链接并搭建一个资源搜索平台，可以为用户提供便捷的资源查找服务。本文将介绍如何爬取网盘资源、存储数据并搭建搜索平台的完整流程。

一、项目背景与需求分析

目标
- 爬取主流网盘（如百度网盘、115网盘等）的资源链接。
- 搭建一个简单的搜索平台，用户可以根据关键词搜索网盘资源。
工具选择
- 数据爬取：requests库与BeautifulSoup库。
- 数据存储：使用SQLite数据库或MongoDB。
- Web框架：使用Flask搭建简单的Web应用。
- 前端：使用HTML和Bootstrap实现用户界面。
数据源
- 主流网盘资源网站（需注意爬取规则及反爬虫机制）。

二、爬取网盘资源链接

选择目标网盘

确定需要爬取的网盘平台。以下是两个示例平台：

百度网盘：提供丰富的资源，需注意反爬虫。
115网盘：同样是一个热门的资源分享平台。

代码实现：爬取百度网盘资源链接

下面是爬取百度网盘资源的示例代码：

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# 百度网盘资源链接页面（示例）
baidu_pan_url = 'https://pan.baidu.com/share/home?uk=XXXXXX&view=sharing'

def get_baidu_pan_resources():
    response = requests.get(baidu_pan_url)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text, 'html.parser')
    
    resource_list = []
    
    # 提取资源信息
    for item in soup.select('div[class="list-item"]'):
        title = item.select_one('span[class="title"]').text.strip()  # 资源名称
        link = item.select_one('a')['href']  # 资源链接
        size = item.select_one('span[class="size"]').text.strip()  # 资源大小
        resource_list.append({
            'title': title,
            'link': link,
            'size': size
        })
    
    return pd.DataFrame(resource_list)

# 爬取百度网盘资源
baidu_resources_df = get_baidu_pan_resources()
baidu_resources_df.to_csv('baidu_resources.csv', index=False)

# 延时
time.sleep(2)  # 避免频繁请求

爬取115网盘资源链接

同样的思路可以用于爬取115网盘资源，示例代码如下：

# 115网盘资源链接页面（示例）
_115_pan_url = 'https://115.com/share/home?uk=XXXXXX'

def get_115_pan_resources():
    response = requests.get(_115_pan_url)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text, 'html.parser')
    
    resource_list = []
    
    # 提取资源信息
    for item in soup.select('div[class="file-item"]'):
        title = item.select_one('span[class="file-name"]').text.strip()  # 资源名称
        link = item.select_one('a')['href']  # 资源链接
        size = item.select_one('span[class="file-size"]').text.strip()  # 资源大小
        resource_list.append({
            'title': title,
            'link': link,
            'size': size
        })
    
    return pd.DataFrame(resource_list)

# 爬取115网盘资源
_115_resources_df = get_115_pan_resources()
_115_resources_df.to_csv('115_resources.csv', index=False)

# 延时
time.sleep(2)  # 避免频繁请求

三、数据存储

为了方便搜索，需要将爬取到的资源链接存储在数据库中。可以选择SQLite作为轻量级的数据库。

创建数据库

import sqlite3

# 创建SQLite数据库
conn = sqlite3.connect('resources.db')
c = conn.cursor()

# 创建表格
c.execute('''
CREATE TABLE IF NOT EXISTS resources (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    title TEXT NOT NULL,
    link TEXT NOT NULL,
    size TEXT
)
''')

# 将数据插入数据库
def insert_resources(dataframe):
    for index, row in dataframe.iterrows():
        c.execute('''
        INSERT INTO resources (title, link, size) VALUES (?, ?, ?)
        ''', (row['title'], row['link'], row['size']))
    conn.commit()

# 插入百度网盘资源
insert_resources(baidu_resources_df)

# 插入115网盘资源
insert_resources(_115_resources_df)

# 关闭数据库连接
conn.close()

四、搭建搜索平台

使用Flask框架搭建一个简单的Web应用，用户可以根据关键词搜索资源。

安装Flask

pip install Flask

创建Flask应用

from flask import Flask, render_template, request
import sqlite3

app = Flask(__name__)

# 连接数据库
def get_db_connection():
    conn = sqlite3.connect('resources.db')
    conn.row_factory = sqlite3.Row
    return conn

# 首页
@app.route('/')
def index():
    return render_template('index.html')

# 搜索功能
@app.route('/search', methods=['POST'])
def search():
    query = request.form['query']
    conn = get_db_connection()
    resources = conn.execute('SELECT * FROM resources WHERE title LIKE ?', ('%' + query + '%',)).fetchall()
    conn.close()
    return render_template('search_results.html', resources=resources)

if __name__ == '__main__':
    app.run(debug=True)

创建HTML模板

在templates目录下创建index.html和search_results.html。

index.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>资源搜索平台</title>
    <link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.5.2/css/bootstrap.min.css">
</head>
<body>
<div class="container">
    <h1 class="mt-5">资源搜索平台</h1>
    <form class="mt-3" method="post" action="/search">
        <div class="form-group">
            <input type="text" class="form-control" name="query" placeholder="输入搜索关键词" required>
        </div>
        <button type="submit" class="btn btn-primary">搜索</button>
    </form>
</div>
</body>
</html>

search_results.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>搜索结果</title>
    <link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.5.2/css/bootstrap.min.css">
</head>
<body>
<div class="container">
    <h1 class="mt-5">搜索结果</h1>
    <table class="table mt-3">
        <thead>
            <tr>
                <th>资源名称</th>
                <th>资源链接</th>
                <th>资源大小</th>
            </tr>
        </thead>
        <tbody>
            {% for resource in resources %}
            <tr>
                <td>{{ resource['title'] }}</td>
                <td><a href="{{ resource['link'] }}">{{ resource['link'] }}</a></td>
                <td>{{ resource['size'] }}</td>
            </tr>
            {% endfor %}
        </tbody>
    </table>
    <a href="/">返回首页</a>
</div>
</body>
</html>