![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
qq_33890533
这个作者很懒,什么都没留下…
展开
-
Hadoop大数据教程(一)
Hadoop简介 归功于大数据处理系统的发展,以 Hadoop为代表的解决方案和工具逐渐成熟,进行大数据应用开发的门槛正在逐渐降低。本书就是学习如何使用Hadoop完成大数据解决方案。学习Hadoop,仅仅需要了解一些 Linux的操作,以及Java编程基础知识就足够进行大数据课程的学习。对于Linux要了解常用的 shell命令和操作,如安装软件、解压包、配置环境变量等对于Java基础要了解面向...原创 2019-06-05 20:10:55 · 499 阅读 · 0 评论 -
JAVA编写Hadoop二次排序程序
运行效果如下 1.输入数据 目标输出 一、创建项目 打开eclipse,新建一个工程。“file” ->“New” ->“other”,select a wizard中选择“Map/Reduce Project”,输入工程名 二、编写程序 选择src,单击右键,选择“New”→“ Package”,输入包名,点击“Finish” 选择包名,点击右键,选择“New”→“Clas...原创 2019-06-11 20:07:57 · 1883 阅读 · 4 评论 -
MapReduce应用开发
Hadoop数据类型 Hadoop基本数据类型如下: IntWritable:整型数 LongWritable:长整型数 FloatWritable:浮点数 DoubleWritable:双字节数 BooleanWritable:布尔型 ByteWritable:单字节,对应byte类型 BytesWritable:字节数组,对应byte[] Hadoop常用的其他数据类型如下: Text:...原创 2019-06-10 19:57:15 · 164 阅读 · 0 评论 -
伪分布式下运行内置的WordCount
一、了解Hadoop官方的示例程序包 在集群服务器的本地目录“$HADOOP_HOME/share/hadoop/mapreduce”中可以发现示例程序包hadoop-mapreduce-example-2.6.5.jar。这个程序包封装了一些常用的测试模板,内容如表所示。 模板名称 内容 multifilewc 统计多个文件中单词的数量 pi 应用 quasI- Monte ...原创 2019-06-10 19:50:25 · 435 阅读 · 0 评论 -
MapReduce简介
在过去的很长一段时间里,CPU的性能都会遵循“摩尔定律”,大约每隔18个月性能提升一倍。这意味着不需要对程序做任何改变,仅仅通过使用更高级的CPU,程序就可以享受免费的性能提升。但是,大规模集成电路的制作工艺已经达到一个极限,从2005年开始摩尔定律逐渐失效,就不能再把希望过多地寄托在性能更高的CPU身上。于是,人们开始钟情于分布式并行编程来提高程序的性能。分布式程序运行在大规模计算机集群上,集群...原创 2019-06-10 19:35:57 · 658 阅读 · 0 评论 -
在eclipse上安装Hadoop插件
第一步 在D盘下创建Hadoop目录,将Hadoop-2.6.5复制到Hadoop目录下。 (1)复制hadoop-eclipse-plugin-2.5.2.jar 到 eclipse安装目录/plugins/ 下,把hadoop.dll放到c:/windows/system32下,把winutils.exe放到Hadoop的安装目录如D:\Hadoop\hadoop-2.6.5\bin\下替换原...原创 2019-06-06 17:12:52 · 1232 阅读 · 1 评论 -
Hadoop之HDFS
HDFS简介 Hadoop的核心组件:HDFS 目前得到广泛应用的分布式文件系统主要包括GFS和HDFS等,Hadoop就是使用的HDFS,它是Google GFS的开源实现 HDFS的优点有 存储超大文件,文件大小通常都是上百MB、TB、PB级别。 标准流式访问,基于“一次写入,多次读取”的构建思路,即只支持文件的追加写,不支持随机访问,这是最高效的访问模式。流式方式就是按照顺序来,一条线,找...原创 2019-06-06 16:31:18 · 395 阅读 · 0 评论 -
Zookeeper之ACL和进程协作
实现节点的增删 打开 Eclipse开发工具,单击File选择“New”→“ Java project”,新建名称 为“zookeeper”的Java项目,单击右键“zookeeper项目,选择“New”→“ Package”。 输入包名称“ cn.dzqc.zk" 新建java类,选中包名并单击右键,选择“New”→“Class” 在name项输入“ZookeeperDemo"类名称 在创建的...原创 2019-06-12 20:21:32 · 2859 阅读 · 1 评论 -
架设Zookeeper集群尝试
首先,创建三台服务器 在一台电脑上安装VMWare Workstation。在VM上安装三台Linux,分别是1个主节点,2个从节点,如下图所示。 注意:这3个节点的IP地址在实际搭建时会有所不同。 第一步 在master上启动 Linux命令终端,创建目录mkdir /usr/zookeeper,执行命令cd /usr/zookeeper,切换到该目录下,把zookeeper文件上传到该目录下...原创 2019-06-12 20:09:56 · 3949 阅读 · 1 评论 -
关于Zookeeper
Zookeeper简介 1.Zookeeper是一个开放源代码的软件。 2.Zookeeper是一个管理“分布式应用程序”的软件。什么是分布式应用程序服务?我们知道,Hadoop中的组件,如hdfs、MapReduce/yarn、hbase、double、kafka都是分布式服务。如MapReduce就是一个分布式服务,MapReduce会将所做的工作分发给Hadoop集群中的多台服务器共同实现。...原创 2019-06-12 19:46:41 · 207 阅读 · 0 评论 -
安装Hadoop(二)
安装Hadoop的预备内容 安装Hadoop之前,我们首先要安装以下两个软件 VMware Workstation CentOS6.5 虚拟机安装完成后,我们要在虚拟机中安装以下两个必要程序 1.JDK1.7或更高版本 2.SSH(安全外壳协议),主要用于主机间的免密码登录。Hadoop需要通过SSH来启动Slave列表(Hadoop组件集群中分为Master和Slave两个角色,Master...原创 2019-06-05 20:53:57 · 270 阅读 · 0 评论 -
Hadoop完全分布式集群搭建(一)
第一步、搭建三个虚拟机 如下图所示 当然,每个人的IP地址可能会有所不同 如上图,搭建完毕 第二步、配置网络 在Linux系统命令终端,执行命令cd /etc/sysconfig/network-scripts,切换到该目录并查看该目录下的文件ifcfg-eth0,如图所示 在Linx系统命令终端,执行命令 vim ifcfg-eth0,并修改文件的内容,按“键入编辑内容编译完成后按Esc键...原创 2019-06-11 20:35:27 · 1263 阅读 · 1 评论