分布并行
文章平均质量分 84
Jay_Sherry
这个作者很懒,什么都没留下…
展开
-
Hadoop简介
古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛,而是使用多头牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。一、什么是Hadoop大数据目前很火!是的,当今我们正处于大数据时代,但是我们应如何存储和分析这些数据,如何从海量数据中取出有价值的信息,例如搜索引擎中如何快速查找出有用信息,淘宝网如何快速根据你的之前浏览页面给出你可能需原创 2015-07-01 10:46:30 · 617 阅读 · 0 评论 -
Hadoop全分布环境配置过程
一、安装Linux操作系统安装过程略,安装完后对系统做一下更新:$sudo apt-get update二、修改机器名,并与IP地址绑定每当Ubuntu安装成功时,我们的机器名都默认为:ubuntu ,但为了以后集群中能够容易分辨各台服务器,需要给每台机器取个不同的名字。机器名由 /etc/hostname文件决定。步骤如下:1、$ sudo gedit /etc/hostname原创 2015-07-03 10:32:01 · 739 阅读 · 0 评论 -
Spark简介
详细内容参照Spark官网:http://spark.apache.org/Spark相关项目:Spark SQL 、Spark Streaming 、Machine Learning 、GraphX1、Spark SQL :用Spark编写的混合SQL查询,能在分布式数据集中查询结构化数据,使得复杂分析算法的查询更容易。2、Spark Streaming :Spark Strea原创 2015-07-14 10:22:51 · 2283 阅读 · 0 评论 -
基于Hadoop的分布并行加法的实现
1、搭建好Hadoop环境,包括JDK的安装、Hadoop的安装及文件配置、SSH通信的配置、eclipse Java开发环境的配置(具体安装见最后附件Hadoop安装配置)。2、本环境配置是在ubuntu下建立了三台虚拟机,一台为master,另两台为slave。打开三台虚拟机,在master上启动Hadoop:使用jps命令查看结点启动情况,如下表明Hadoop启动成功:原创 2015-10-30 10:16:38 · 1053 阅读 · 0 评论