MongoDB 数据库 — 实例总结

本篇打算总结一些碰到的实例,后面碰到问题再进行补充。

实例1:aggregate 实现 count(distinct field)

我们知道在 SQL 中,要实现这样的功能,只需要 count(distinct field) 即可,虽然 MongoDB 中有聚合函数 count,distinct,但是,在 aggregate 聚合管道操作中却没有这样的用法,因此,需要使用其它方法来实现这种功能。

1 聚合函数 count 和 distinct

# count 聚合函数
db.collection.count(<query>)

#或者
db.collection.find(<query>).count()

# distinct 聚合函数
db.collection.distinct(field, query)

# 例如
db.collection.distinct('user', {'age': {'$gt': 28}});  //用于查询年龄age大于28岁的不同用户名

2 aggregate 管道操作中实现 count(distinct field) 功能

对集合中每个 account 使用的不同 vendor 个数计数

# 文档内容
{
    { _id: 1,
     account: 'abc',
     vendor: 'amazon'
    },

    { _id: 2,
     account: 'abc',
     vendor: 'overstock'
    },

    { _id: 3,
     account: 'adf',
     vendor: 'amazon'
    }
}

# 统计方法
db.collection.aggregate([
                { '$group': { '_id': { 'account': '$account', 'vendor': '$vendor'} },
                  'number': { '$sum': 1 }                                        
                },
                { '$group': { '_id': '$_id.account' },
                  'number': { '$sum': 1 }
                }
    ])

# 结果
[ 
    { '_id': 'abc', 'number': 2 },
    { '_id': 'adf', 'number': 1 }
]

参考资料

MongoDB Aggregation: Counting distinct fields

转载于:https://www.cnblogs.com/shaocf/p/11098720.html

以下是一个实例,演示了如何使用CrawlSpider分布式爬虫将据存储到MongoDB数据库中。 1. 安装pymongo库 ``` pip install pymongo ``` 2. 创建一个Scrapy项目 ``` scrapy startproject myproject ``` 3. 创建一个Spider,继承自CrawlSpider ``` import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from pymongo import MongoClient class MySpider(CrawlSpider): name = 'myspider' rules = ( Rule(LinkExtractor(), callback='parse_item', follow=True), ) def __init__(self): self.client = MongoClient() self.db = self.client['mydatabase'] def parse_item(self, response): item = {} item['title'] = response.xpath('//title/text()').extract_first() item['url'] = response.url self.db['mycollection'].insert_one(item) return item ``` 在这个Spider中,我们使用了MongoClient连接到本地的MongoDB数据库,并在parse_item方法中使用insert_one将据存储到名为mycollection的集合中。 4. 在settings.py文件中添加MongoDB的配置 ``` MONGO_URI = 'mongodb://localhost:27017/' MONGO_DATABASE = 'mydatabase' ``` 5. 在命令行中运行分布式爬虫 ``` scrapy crawl myspider -s JOBDIR=crawls/myspider-1 ``` 在这个命令中,我们使用JOBDIR参指定了爬虫任务的保存路径,以便在分布式爬虫中断后,可以恢复之前的爬取进度。 6. 在另一台计算机上运行分布式爬虫 ``` scrapy crawl myspider -s JOBDIR=crawls/myspider-2 ``` 在这个命令中,我们使用JOBDIR参指定了不同的保存路径,以便在不同的计算机上运行爬虫任务。 通过以上步骤,我们可以使用CrawlSpider分布式爬虫将据存储到MongoDB数据库中。注意,在使用分布式爬虫时,需要考虑据同步、任务分配等问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值