最近在用mongodb保存一些爬虫的数据。遇到问题就是,需要把那些重复的数据更新,这个网站是滚动的,以前爬到的数据,同一个页面,可能现在有人回复了,页面的内容页就变了。向把以前保存过的数据再更新一下。不再重复保存。当然重复保存也可以,后期需要删除重复的数据。最好还是更新。
使用mongodb 的update_one命令可以实现这种功能。
比如:
import pymongo
client = pymongo.MongoClient()
db = client.db
collection = db.collection
data1 = {"tid":1, "name":"jeck", "post":"right", "reply":"null"}
data2 = {"tid":2, "name":"lucy", "post":"west", "reply":"yes"}
data11 = {"tid":1, "name":"jeck_nuan", "post":"wrong", "reply":"unsat"}
data22 = {"tid":2, "name":"lucy_johon", "post":"south", "reply":"sat"}
collection.insert_many([data1, data2])
list(collection.find())
collection.update_one({"tid":1}, {"$set":data11}, upsert=True)
list(collection.find())
collection.update_one({"tid":2}, {"$set":data22}, upsert=True).modified_count
res =collection.update_one({"tid":1}, {"$set":data11}, upsert=True)
res.modified_count
res = collection.update_one({"tid":2}, {"$set":data22}, upsert = True)
res.modified_count
update_one里的两个参数 都要用大括号,第一个大括号是表示query,查询是否有符合条件的记录。比如查询 tid 是1的记录。第二个大括号表示更新数据,可以更新单个键值,但是我选择更新整个记录。需要把整个记录传给 set。这样就可以得到需要的结果了。modified_count显示是否完成了更新。