1. $where查询
键/值对是很有表现力的查询方式,但是依然有些需求它无法表达。当其他方法都败下来的时候,就轮到”$where”子句了,用它可以执行任意JavaScript作为查询的一部分。这就使得查询能做(几乎)任何事情。
最典型的应用就是比较文档中的两个键的值是否相等。例如,有个条目列表,如果其中的两个值相等则返回文档,请看如下示例:
>db.foo.insert({“apple”:1,”banana”:6,”peach”:3})
>db.foo.insert({“apple”:8,” spinach”:4,”watermelon”:4})
第二个文档中,”spinach”和”watermelon”的值都相同,所以需要返回该文档。MongoDB似乎永远不会提供一个$条件符来做这个,所以只能用”$where”子句借助javaScript来完成了。
>db.foo.find({“$where”,function(){
for(var current in this){
for(varother in this){
if(current!= other && this[current] == this[other]){
returntrue;
}
}
}
returnfalse;
}
})
如果函数返回true,文档就做为结果的一部分被返回;如果为false,则不然。
前面用的是一个函数,也可以用一个字符串来指定”$where”查询。下面两种表达是完全等价的。
>db.foo.find({“$where” : “this.x + this.y== 10”})
>db.foo.find({“$where” : “function(){returnthis.x + this.y == 10}”})
不是非常必要时,一定要避免使用”$where”查询,因为它们在速度上要比常规查询慢很多。每个文档都要从BSON转换成JavaScript对象,然后通过”$where”这种用法,将常规查询作为前置过滤,与”$where”组合使用可以不牺牲性能。如果可能的话,用索引根据非”$where”子句进行过滤,”$where”只用于对结果进行调优。另一种复杂查询的方式是利用MapReduce,下一章会进行介绍。
2. 游标
2.1基本介绍
>for(i = 0; i<100; i++){
db.c.insert({x: i});
}
>var cursor = db.c.find();
>while(cursor.hasNext()){
obj =cursor.next();
//do stuff
}
>var cursor = db.people.find();
>cursor.forEach(function(x)){
print(x.name);
}
当调用find的时候,shell并不立即查询数据库,而是等待真正开始要求结果的时候才发送查询,这样在执行之前可以给查询附加额外的选项,几乎所以游标对象的方法都返回游标本身,这样就可以按任意顺序组成方法链。例如,下面几种表达是等价的:
>var cusor = db.foo.find().sort({“x” : 1}).limit(1).skip(10);
>var cursor = db.foo.find().limit(1).sort({“x” : 1}).skip(10);
>var cursor = db.foo.find().skip(10).limit(1).sort({“x”: 1});
此时,查询还没有执行,所有这些函数只是构造查询,现在,假设我们执行如下操作
>cursor.hasNext()
这时,查询被发往服务器。shell立刻获取前100个结果或者前4MB数据(两者这中较小者),这样下次调用next或者hasNext时就不必兴师动众跑到服务器上去了。客户端用光了第一组结果,shell会再一次联系数据库,并要求更多的结果。这个过程一直会持续到游标耗尽或者结果全部返回。
sort、limit和skip组合使用可以实现分页的效果,但是skip过多的结果会导致性能问题,所以建议尽量避免。
比较顺序
MongoDB处理不同类型的数据是有一个顺序的。有时候一个键的值可能是多种类型的。例如,整数和布尔类型,或者字符串和null,如果对这种混合类型的键排序,其排序顺序是预先定义好的。从小到大,其顺序如下:
(1) 最小值
(2) null
(3) 数字(整型、长整型、双精度)
(4) 字符串
(5) 对象/文档
(6) 数组
(7) 二进制数据
(8) 对象ID
(9) 布尔型
(10) 日期型
(11) 时间戳
(12) (正则表达式)
(13) 最大值
2.2 避免使用skip略过大量结果
用skip略过少量的文档还是不错的。但是要是数量非常多的话,skip就会变得很慢,所以要尽量避免。通常可以向文档本身内置查询条件,来避免过大的skip,或者利用上次的结果来计算下一次查询。
分页方法一:
>var page1 = db.foo.find(criteria).limit(100)
>var page2 = db.foo.find(criteria).skip(100).limit(100)
>var page3 = db.foo.find(criteria).skip(200).limit(100)
这样的分页方式很耗费性能,不提倡使用,建议使用如下的方式
分页方式二:
举例:要按照“date”降序显示文档。可以用如下方式获取结果的第一页:
>var page1 = db.foo.find().sort({“date” : -1}).limit(100),然后,可以利用最后一个文档中的”date”的值作为查询条件,来获取下一页:
var latest = null;
//display first page
while(page1.hasNext()){
latest =page1.next();
display(latest);
}
//get next page
var page2 = db.foo.find({“date” : {“$gt” : latest.date}})
page2.sort(“date” : -1).limit(100);
通过这种方式查询中就没有skip了。
2.3 高级查询选项
查询分为包装和普通的两类。普通的查询就像下面这个
>var cursor = db.foo.find({“foo” : “bar”})
有几个选项用于包装查询。例如我们执行一个排序
>var cursor = db.foo.find({“foo”:”bar”}).sort({“x” : 1})
实际上不是将{“foo” : “bar”}作为查询直接发送给数据库,而是将查询包装在一个更大的文档中。shell会把查询从{“foo” : “bar”}转换成{“$query”:{“foo”:”bar”},”$orderby” : {“x” : 1}}
绝大多数驱动程序有些辅助措施向查询添加各种选项。下面列举了其他一些有用的选项。
$maxscan : integer
指定查询最多扫描的文档数量
$min : document
查询的开始条件
$max : document
查询的结束条件
$hit : document
指定服务器使用哪个索引进行查询
$explain : boolean
获取查询执行的细节(用到的索引、结果数量、耗时等),而并非真正执行查询。
#snapshot : boolean
确保查询的结果是在查询执行那一刻的一致快照
使用快照来获取一致的结果。
3. 游标内幕
看待游标有两种角度:客户端的游标以及客户端游标表示的数据库游标。前面讨论的都是客户端的游标,接下来简要看看服务器发生了什么。
在服务器端,游标消耗内在和其他资源。游标遍历尽了结果以后,或者客户端发来消息要求终止,数据库将释放这些资源。释放的资源可以被数据库换作他用,这是非常有益的,所以要尽量保证尽快释放游标。
还有一些情况导致游标终止(随后被清理)。首先,当游标完成匹配结果的迭代时,它会清除自身。另外,当游标在客户端已经不在作用域内了,驱动会向服务器发送专门的消息,让其销毁游标。最后即使用户也没有迭代完所有结果,并且游标也还在作用域中,10分钟不使用,数据库游标也会自动销毁。
这种”超时销毁”的行为是我们希望的:极少有应用程序希望用户数分钟坐在那里等待结果。然而,的确有些时候希望游标持续的时间长一些,若是如此的话,多数驱动程序都实现了一个叫immortal的函数,或者类似的机制,来告知数据库不要让游标超时。如果关闭了游标的超时时间,则一定要在迭代完结果后将期关闭,否则它会一直在数据库中消耗服务器资源。