Python 原生爬虫教程：MongoDB 数据库的简单使用和配置

Json19970108018

于 2025-05-19 11:40:22 发布

阅读量306

点赞数 11

分类专栏： Python 原生爬虫教程文章标签：数据库 python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2510_91865210/article/details/148059875

版权

Python 原生爬虫教程专栏收录该内容

20 篇文章

订阅专栏

要实现一个简单的 Python 爬虫并使用 MongoDB 数据库存储数据，你需要完成以下几个步骤：

1. 安装必要的库

首先，确保你的 Python 环境中安装了 requests（用于发送 HTTP 请求）、beautifulsoup4（用于解析 HTML）和 pymongo（用于 MongoDB 的操作）。你可以使用 pip 来安装这些库：

pip install requests beautifulsoup4 pymongo

2. 配置 MongoDB

确保你已经安装了 MongoDB，并且它正在运行。

安装完成后，你可以通过运行 MongoDB 服务来启动它：

mongod

3. 编写爬虫代码

以下是一个简单的爬虫示例，该爬虫从某个网页抓取数据，并存储到 MongoDB 中。

步骤 1: 导入库

import requests

from bs4 import BeautifulSoup

from pymongo import MongoClient

步骤 2: 连接到 MongoDB

client = MongoClient('localhost', 27017) # 默认连接 localhost 的 27017 端口

db = client['mydatabase'] # 使用或创建数据库

collection = db['mycollection'] # 使用或创建集合

步骤 3: 编写爬虫函数

假设我们要爬取一个网页的标题和链接。

def fetch_data(url):

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

items = []

for link in soup.find_all('a', href=True): # 假设我们要抓取所有链接和标题

title = link.get_text(strip=True) # 获取链接文本作为标题

href = link['href'] # 获取链接地址

items.append({'title': title, 'url': href})

return items

步骤 4: 存储数据到 MongoDB

def store_data(items):

collection.insert_many(items) # 插入多个文档到集合中

步骤 5: 主函数，运行爬虫并存储数据

def main():

url = 'http://example.com' # 你要爬取的网页 URL，请替换为实际 URL

data = fetch_data(url)

store_data(data)

print("数据已存储到 MongoDB")

if __name__ == '__main__':

main()

4. 运行你的爬虫脚本

确保你的 MongoDB 服务正在运行，然后运行你的 Python 脚本：

python your_script.py

5. 检查数据是否存储在 MongoDB 中

你可以使用 MongoDB 的命令行工具或任何 GUI 工具（如 Robo 3T 或 MongoDB Compass）来查看数据是否已经正确存储。例如，使用 MongoDB shell:

mongo

use mydatabase # 选择数据库

db.mycollection.find() # 查看集合中的数据

这样，你就完成了一个简单的 Python 爬虫，并将数据存储到了 MongoDB 中。你可以根据需要调整爬虫逻辑和数据处理方式。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。