- 博客(6)
- 资源 (33)
- 收藏
- 关注
转载 熟悉 MongoDB MapReduce
MongoDB资料汇总专题 http://blog.nosqlfan.com/html/3548.htmlMapReduceMapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间。对科班出生的程序员来
2011-12-28 15:26:25 471
转载 NoSQL数据库:MongoDB初探
跟着时下炒得火热的NOSQL潮流,学习了一下mongodb,记录在此,希望与感兴趣的同学一起研究!MongoDB概述mongodb由C++写就,其名字来自humongous这个单词的中间部分,是由10gen开发并维护的,关于它的一个最简洁描述为:scalable, high-performance, open source, schema-free, document-orie
2011-12-28 15:18:51 569
转载 一淘网技术简介
一淘网( www.etao.com )于2010年10月9日10:39正式上线,很多同学和同行对一淘的系统架构和面临的关键技术问题都很感兴趣,这篇短文希望能给予简要的介绍。系统架构一淘的系统架构如上图所示。可以看到,一淘有三个数据来源:互联网、外部合作方和淘宝主站。其中,互联网数据通过crawl的方式获得,而后两者则通过feed的方式提供。抓取系统的功能包括
2011-12-28 15:05:37 801
转载 快速构建实时抓取集群
定义:首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点是已知的,站点的页面是已知的。本文的介绍里面,主要是侧重于如何快速构建一个实时的抓取系统,并不包含通用意义上的比如链接分析,站点发现等等特性。在本文提到的实例系统里面,主要用到linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,re
2011-12-28 14:57:51 461
原创 使用mongodb 的MapReduce功能笔记
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。1. 先来一个看一个简单的例子,利用mongodb 的MapReduce功能进行分组统计。数据表结构,用户的行为Record表,用户每个行为记录一条,利用MapReduce来统计每个用
2011-12-28 14:44:36 562
转载 解决“/bin/bash^M: bad interpreter: No such file or directory
在網上找到一個腳本,將其上傳至linux上進行編譯測試時報錯:“/bin/bash^M: bad interpreter: No such file or directory查詢後得知,可能是Windows 與 linux的編碼格式不一樣不致。 於時透過如下命令對文件编码方式進行转变。[root@localhost bin]# dos2unix myshell.sh
2011-12-20 19:07:37 540
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人