MongoDB
张包峰
Distributed Computing
展开
-
MongoDB笔记
转载请注明出处:http://blog.csdn.net/zbf8441372MongoDB是现今最火的NoSQL之一,暑假终于有时间把《MongoDB权威指南》和NoSQL Fan上关于它的一些文章浏览了一些,下面我简单总结几点MongoDB吸引人的地方。关于MongoDB的基本操作,运维,使用,大家可以自己去看书或者学习资料。 1. 较之别的NoSQL《MongoDB: T原创 2012-07-17 13:30:56 · 2346 阅读 · 0 评论 -
Python+MongoDB 爬虫实战
工具准备及爬虫搭建Scrapy(python写成的爬虫框架)在前一篇 Scrapy爬虫入门 里有写到Scrapy的安装和基本使用,他的特点是每个不同的page都自己定制一个不同的Spider,通过scrapy crawl spidername -o file -t json的方法运行爬虫程序并且以json形式保存到目标文件里(当然后面 -o -t 两项可以省略)。而且p原创 2013-03-04 15:35:10 · 6726 阅读 · 5 评论 -
MongoDB单机, 主从, 分布式部署
MongoDB是最易用的NoSQL,比较适合取代MySQL做一些存储,不过不是强一致性的。本文介绍一下MongoDB各种部署方式,并分享一些感受。前两部分“单机部署”和“主从部署”是“分片部署”的基础。MongoDB单机部署启动下载来的MongoDB包的bin目录下的mongod.exe即可打开MongoDB服务,可以添加的基本配置是:./mongod.exe --db原创 2013-03-06 22:28:30 · 18690 阅读 · 0 评论 -
学术分享搜索平台——中期报告
一、 项目概况学术分享搜索引擎主要基于爬取的学术数据,提供搜索,可视化,推荐三大块功能,并且支持用户分享感兴趣的学术资源,结合“众包”来打造一个更社交化的学术搜索平台。相比于传统的学术搜索,可视化和用户的加入能让平台帮助用户发现更多的东西。我的工作是整个平台的开发和搭建。从数据上说,涵盖了数据爬取,数据处理,分布式存储,建立索引等工作;从功能上说,涵盖了网站搭建,搜索服务,可视化原创 2013-05-05 17:57:35 · 6184 阅读 · 0 评论 -
MongoDB简单调研
一直受传统RDB的影响,对于数据库表的设计可能大多数开发者都形成了思维定势。在云计算和大数据背景下,RDBMS正在接近极限,KV存储将受到越来越多的关注。学习NoSQL,不求能革RDBMS的命,但希望在设计思路上能得到一些拓宽,很多场景里,SQL表的设计和计算语句其实蛮难受的。 RDBMS天生不是分布式的,因其保持着ACID的特性发展至今,非常重视数据完整性,但在机器规模增长的情况下,ACID是不可扩展的。同时,随着数据量和访问频率增加,ACID所要维护的开销在增大。分割数据库,无论水平还是垂原创 2013-08-04 20:45:15 · 3650 阅读 · 2 评论 -
MongoDB Replica Set使用几点总结
本文会涉及到MongoDB副本集的初始化,读写性能,scala driver,简单运维等内容。副本集初始化在各个节点上replica set进程,nohup numactl --interleave=all ./mongod --dbpath /home/mongodb/data/ --logpath /home/mongodb/mongodb-linux-x86_64-2.4.7/run.log --port 8017 --rest --journal --replSet smartq --op原创 2013-11-18 16:46:25 · 4593 阅读 · 0 评论 -
从MongoDB Replica Set HA 看分布式系统读写一致性问题
Mongodb通过副本集的方式提高可用性,一方面副本集是去中心化的模式,能够自动检测选举新的primary,同步节点之间的数据,通过mongos路由路口,保证对client端透明;另一方面副本集存储数据全集,只要你能容忍他的最终一致性,secondary节点一样可以提供read。在Mongodb2.0之后的版本加入了journaling这个东西,更加增强了可靠性,保证当你的primary挂掉之后,前面几次修改操作仍然被记录在journal中,可以被还原也可以被撤销,避免数据不一致或弄脏的情况。journal原创 2013-11-08 20:04:36 · 4213 阅读 · 0 评论