![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 81
仰望星空_
人生太短,要干的事太多,我要争分夺秒。
展开
-
CountOnce
问题阐述:已知一个数组,数组中只有一个数据是出现一遍的,其他数据都是出现两遍,将出现一次的数据找出。 1.实例描述 输入为3个文件: 1.txt 内容为: 1,2,1,3,3 2.txt : 4,5,4,6,5 3.txt : 6,7,8,8,7 2.设计思路 利用异或运算将列表中的所有ID异或,之后得到的值即为所求ID。先将每个分区的数据异或,然后将结果进行异或原创 2015-03-04 19:23:08 · 578 阅读 · 0 评论 -
spark 倒排索引
1.实例描述 输入为一批文件,文件内容格式如下: Id1 The Spark …… Id2 The Hadoop …… 输出如下:(单词,文档ID合并字符串) The Id1 Id2 Hadoop Id2 …… 2.设计思路 先读取所有文件,数据项为(文档ID,文档词集合)的RDD,然后将数据映射为(词,文档ID)的RDD,去重,最后在reduce原创 2015-03-04 19:11:44 · 2260 阅读 · 0 评论 -
zookeeper-3.4.6 分布式安装与配置
zookeeper集群结构 master节点 slave1节点 slave2节点 zookeeper分布式安装配置步骤 1.下载并解压得到zookeeper-3.4.6目录,并新建指向其的链接zookeeper,将zookeeper链接文件放置/root目录下 2.配置环境变量 编辑 /etc/profile文件,增加ZOOKEEPER_HOME和PATH变量,如下:原创 2015-04-30 19:56:11 · 716 阅读 · 0 评论 -
技术揭秘12306改造(一):尖峰日PV值297亿下可每秒出票1032张
摘要:12306网站今年没瘫痪,为此CSDN在第一时间联系到一位对12306改造非常关注的技术架构师,他从技术的角度,用科学论证的方式,指出原因所在,并进一步说明12306是如何实现高流量高并发的关键技术,与大家共享。 注:本文首发于CSDN,转载请标明出处。 【编者按】12306网站曾被认为是“全球最忙碌的网站”,在应对高并发访问处理方面,曾备受网民诟病。 2015年铁路客票春运购票转载 2015-05-16 10:08:20 · 714 阅读 · 0 评论 -
技术揭秘12306改造(二):探讨12306两地三中心混合云架构
摘要:当面临“有计划、难预测、暂时性”的巨大访问量,该如何解决此问题?是花巨资建设系统呢? 还是将需要“短暂”巨大资源的业务托管在云计算数据中心,让它们提供快速灵活可调度的资源呢?本文以12306为例进行探讨。 注:本文首发于CSDN,转载请标明出处。 【编者按】在年前的「技术揭秘12306改造」专题中,一位对12306改造非常关注的技术架构师,他从技术的角度,用科学论证的方式说明1230转载 2015-05-16 10:11:29 · 1285 阅读 · 0 评论 -
揭秘12306技术改造(三):传统框架云化迁移到内存数据平台
摘要:此篇文章列举不同类型的系统改造迁移到云平台方案,从改造思路探讨,系统框架设计和项目实施的整个迁移过程,供大家参考和交流。 注:本文首发于CSDN,转载请标明出处。 【编者按】在年前的「技术揭秘12306改造」专题中,负责12306改造的技术架构师刘云程从技术的角度、用科学论证的方式说明 12306是如何实现高流量高并发的关键技术,以及深入探讨了12306两地三中心混合云架构,今天,他转载 2015-05-16 10:17:29 · 570 阅读 · 0 评论