big data and clound
FishBear_move_on
github 地址 https://github.com/Jayhello
展开
-
hadoop学习之hadoop完全分布式集群安装
注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流。转载请注明来自:http://blog.csdn.net/ab198604/article/details/8250461 要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来转载 2015-03-09 12:10:39 · 472 阅读 · 0 评论 -
IntelliJ IDEA配置Spark使用
第二步下载插件首先启动intelliJ IDEA:在命令行终端中,进入$IDEA_HOME/bin目录,输入./idea.sh进行启动,进入如下界面,然后选择右下角“plugins”然后进入以下界面,点击Plugins,由于Scala插件没有安装,需要点击”Install JetBrains plugins"进行安装,如下图所示:然后进入以下界面,点击下转载 2016-10-08 18:25:06 · 2983 阅读 · 0 评论 -
2分钟读懂大数据框架Hadoop和Spark的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计转载 2016-10-08 16:31:30 · 388 阅读 · 0 评论 -
电商搜索引擎实践(工程篇)
随着互联网数据规模的爆炸式增长, 如何从海量的历史, 实时数据中快速获取有用的信息, 变得越来越有挑战性. 一个中等的电商平台, 每天都要产生百万条原始数据, 上亿条用户行为数据. 一般来说, 电商数据一般有3种主要类型的数据系统:关系型数据库, 大多数互联网公司会选用mysql作为关数据库的主选, 用于存储商品, 用户信息等数据. 关系型数据库对于事务性非常高的OLTP操作(比如转载 2016-04-11 09:22:56 · 392 阅读 · 0 评论 -
基于protobuf的RPC实现
http://blog.csdn.net/kevinlynx/article/details/39379957可以对照使用google protobuf RPC实现echo service一文看,细节本文不再描述。google protobuf只负责消息的打包和解包,并不包含RPC的实现,但其包含了RPC的定义。假设有下面的RPC定义:[cpp] view转载 2016-04-12 09:34:07 · 678 阅读 · 0 评论 -
浅谈Storm流式处理框架
http://blog.csdn.net/fanyun_01/article/details/50921678 Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。 有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Ha转载 2016-03-20 21:34:16 · 371 阅读 · 0 评论 -
机器学习系列(7)_机器学习路线图(附资料)
http://blog.csdn.net/han_xiaoyang/article/details/50759472作者:寒小阳&&龙心尘 时间:2016年2月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/50759472 http://blog.csdn.net/longxinchen_ml/arti转载 2016-03-07 19:18:23 · 627 阅读 · 0 评论 -
腾讯微信技术总监周颢:一亿用户增长背后的架构秘密
http://www.csdn.net/article/2012-05-15/2805581[CSDN.NET专稿 付江/文] 微信——腾讯战略级产品,创造移动互联网增速记录,10个月5000万手机用户,433天之内完成用户数从零到一亿的增长过程,千万级用户同时在线,摇一摇每天次数过亿...在技术架构上,微信是如何做到的?日前,在腾讯大讲堂在中山大学校园宣讲活动上,腾讯广研助理总经理、转载 2015-11-22 17:45:10 · 458 阅读 · 0 评论 -
大型网站架构演变过程、大并发服务器架构
大型网站架构演变过程:[Step1]web server与数据库分离web动静资源分离静态请求:如html, js, css, img动态请求:如jsp, php[Step2]缓存处理客户端(浏览器)缓存前端页面缓存(squid)转载 2015-10-30 16:39:38 · 511 阅读 · 0 评论 -
数据库Sharding的基本思想和切分策略
http://blog.csdn.net/bluishglc/article/details/6161475(大数据还不错)本文着重介绍sharding的基本思想和理论上的切分策略,关于更加细致的实施策略和参考事例请参考我的另一篇博文:数据库分库分表(sharding)系列(一) 拆分实施策略和示例演示 一、基本思想 Sharding的基本思想就要转载 2015-09-15 12:37:21 · 376 阅读 · 0 评论 -
如何给10^7个数据量的磁盘文件排序
第一节、如何给磁盘文件排序问题描述:输入:一个最多含有n个不重复的正整数(也就是说可能含有少于n个不重复正整数)的文件,其中每个数都小于等于n,且n=10^7。输出:得到按从小到大升序排列的包含所有输入的整数的列表。条件:最多有大约1MB的内存空间可用,但磁盘空间足够。且要求运行时间在5分钟以下,10秒为最佳结果。分析:下面咱们来一步一步的解决这个问题, 1、归并转载 2015-08-29 20:51:45 · 552 阅读 · 0 评论 -
教你如何迅速秒杀掉:99%的海量数据处理面试题
教你如何迅速秒杀掉:99%的海量数据处理面试题作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的转载 2015-06-28 17:05:33 · 477 阅读 · 0 评论 -
典型的Top K算法_找出一个数组里面前K个最大数...或找出1亿个浮点数中最大的10000个...一个文本文件,找出前10个经常出现的词,但这次文件比较长,说是上亿行或十亿行,总之无法一次读入内存,
http://blog.163.com/xychenbaihu@yeah/blog/static/1322296552012821103039741/Top K 算法详解应用场景: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1转载 2015-03-10 09:37:12 · 720 阅读 · 0 评论 -
kafka 工作原理介绍
消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供公共的信息交换机制是重要的。常转载 2017-05-27 08:33:41 · 1148 阅读 · 0 评论