![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
海量数据
文章平均质量分 75
iteye_3697
这个作者很懒,什么都没留下…
展开
-
实时计算应用场景
个人博客总是访问不了,原文:实时计算应用场景实时计算的概念很难定义,每个人对这四个字的理解可能都不同。个人观点主要分为两块:数据的实时入库和数据的实时计算。数据实时入库的时候,一般都需要对原始数据做一定的处理再入库。能在这个步骤计算尽量在这里完成。 这个类似数据的预算后入库,然后提供直接读取服务。对用户的延时性上最好。然而有一些对数据的计算并不能通过预算解决全部问题,比如搜索。...2011-08-26 11:31:56 · 885 阅读 · 0 评论 -
Storm :twitter的实时数据处理工具
Twitter在9月19日的Strange Loop大会上公布Storm的代码。这个类似于Hadoop的即时数据处理工具是BackType开发的,后来被Twitter收购用于Twitter。 Twitter列举了Storm的三大类应用: 1. 信息流处理{Stream processing} Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。 2. 连续计算{Contin...2011-09-19 22:41:22 · 274 阅读 · 0 评论 -
初识spark-基本概念和例子
前年的文章,备份spark是一个开源的分布式计算系统,提供快速的数据分析功能。 官网地址 http://www.spark-project.org/ 据说性能高出hadoop很多(个人理解主要是因为两点:内存和cache),而且相对更加简单,灵活。非常适合需要反复迭代的计算,比如机器学习。spark基于scala编写,对我而言也是门陌生的语言,至今还是有很多不理解的地方。基本概念...2013-11-10 14:45:49 · 145 阅读 · 0 评论 -
Spark范例:统计CSDN不同邮箱的密码白痴指数
前年的文章,备份spark编写了一段统计CSDN中不同邮箱的密码白痴程序,数据来源于最近被公布的csdn明文数据,以下代码重点是spark在编程性上的体验,性能上比较没有意思,这点数据单机都能计算,计算结果仅供娱乐。 感谢CSDN提供这么好的数据样本目前网上能找到的spark范例很少,这个算是扫盲吧。写这段代码过程顺便也熟悉了scala的各种写法。代码主要分3部分:1、白痴密码...原创 2013-11-10 14:47:28 · 371 阅读 · 0 评论 -
Spark范例:SortByKey
前年的文章,备份spark自身不提供sortByKey的功能,但提供reduceByKey,groupByKey,combineByKey等功能。SortByKey常用于构建倒排索引上。比如原始数据结构为(key1,4)(key1,3)(key1,7)(key1,1)需要转换成(key1,(1,3,4,7))我创建了一个简单的数据样本,保存到一个文件里sortByKey.txt。也可...原创 2013-11-10 14:48:50 · 176 阅读 · 0 评论