大数据
文章平均质量分 58
码中小白鼠
码中小白鼠
展开
-
Hadoop伪分布式搭建
使用Hadoop-2.6.5进行伪分布式搭建首先输入命令yum install lrzsz -y进行lrzsz安装,lrzsz是一款在linux里可代替ftp上传和下载的程序。安装过程中耐心等待,出现下图情况即安装成功输入rz进行文件上传,我自己是在/opt目录下创建了一个software目录,用来安装文件上传jdk和Hadoop...原创 2019-06-12 23:40:20 · 330 阅读 · 0 评论 -
概述Hadoop2.0中Yarn
什么是YarnApache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。为什么要使用YarnHadoop经历主要经历了两个版本。在Hadoop v2.0的版本中...原创 2019-06-17 16:52:45 · 900 阅读 · 0 评论 -
浅谈大数据持久化概念
SecondaryNamenode 持久化什么是持久化为了保证元数据的安全,将内存中的数据存放到磁盘中就是持久化。元数据:描述数据的数据为什么要使用持久化当我们的集群因断电等特殊原因产生问题,数据丢失的时候,等重新开机时,可以去磁盘上读取元数据,把数据恢复到断电前的状态NameNode不能进行持久化的原因由于NameNode自身工作已经很多,有可能在持久化过程中宕机,所以...原创 2019-06-11 19:55:07 · 896 阅读 · 0 评论 -
关于hive常用命令
什么是hivehive是Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。可以快速简单实现MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。hive为什么依赖mysqlhive只是个工具,包括它的数据分析,依赖于mapreduce,它的数据管理,依...原创 2019-06-20 21:09:42 · 297 阅读 · 0 评论 -
大数据概览及当下实用的主流开发
本篇文章是对于大数据的一些基本看法,以便让一些想学习大数据的朋友进一步去了解。近年来大数据异常火爆,随着科技的不断更新迭代,大数据,成为了每天议论的热门话题。去找度娘问什么是大数据,显示出来的结果长篇大论令人应接不暇,而且回答都比较偏抽象,一时半会儿也难以理解大数据到底是一个什么样的方向,所以我在这里给大家一些我个人对于大数据的理解和看法:1)什么是大数据大数据是在短时间内快速产生大量...原创 2019-06-10 20:37:14 · 226 阅读 · 0 评论 -
Hive的安装
Hive的安装上传tar包并进行解压安装mysql数据库(推荐使用yum在线安装)配置hive配置HIVE_HOME环境变量vi conf/hive-env.sh配置其中的$hadoop_home=(这里写hadoop的路径)接着配置元数据库信息,继续写入命令vi hive-site.xml添加如下内容<configuration> <property&...原创 2019-06-19 20:14:16 · 191 阅读 · 0 评论 -
在Eclipse上如何进行Map/Reduce分布式计算
Eclipse分布式计算项目构建进行计算数据出现次数**第一步:**在Eclipse中右键项目空白区域,NEW一个新的Other,选择Map/Reduce Project进行创建,输入项目名称后创建,如下图:**第二步:**在构建出来的项目下右键点击srcOther俩个新的类,一个为Mapper,另一个为Reducer,之后还要创建一个普雷的类,用来获取集群中文件路径和加载自己的集群配置...原创 2019-06-14 20:24:04 · 574 阅读 · 0 评论 -
浅谈分布式计算的思想
Map/Reduce分布式计算的思想通俗来说合久必分 分久必合大数据处理原则—计算找数据大体概括Map/reduce计算操作1.数据传过来,计算程序分发2.提前先对数据进行清洗去除掉脏数据3.会提前进行一次小的聚合4.将聚合之后的数据连同剩余的数据进行运输(shuffle运输)这也是最影响效率最浪费时间的一步(传输需要走网络磁盘io)5.在reduce端进行一个大合并,也就是最...原创 2019-06-14 20:01:02 · 897 阅读 · 0 评论 -
zookeeper分布式协调服务简介
什么是zookeeperzookeeper是一个分布式的,开放源码的协调服务,是Hadoop和Hbase重要组件,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护,域名服务,分布式同步,组服务等。zookeeper下的角色zookeeper下大致有三种角色leader 领导者:发起一个请求,并且投票follower 跟从者:响应leader的请求并发起投票observ...原创 2019-06-18 21:39:43 · 412 阅读 · 0 评论 -
用eclipse操作Hadoop集群的常用的JUnit单元测试
引入配置文件//引入配置文件 Configuration conf=null; //创建文件流——引用的是hadoop内部封装的方法 FileSystem fs=null;设置执行前后@Before public void conn() throws IOException{ conf = new Configuration(true);//设置是否读取配置信息 f...原创 2019-06-13 21:24:53 · 349 阅读 · 0 评论 -
如何在Eclipse上操作Hadoop
在Eclipse上如何对Hadoop进行操作,首先需要配置环境变量由上图可见,需要配置俩个环境变量,一个是HADOOP_HOME,需要将工具类的地址输入另一个是HADOOP_USER_NAME,因为在虚拟机中,root是最高权限用户,所以我们为了eclipse和Hadoop关联,需要在环境配置中把配置一个值为root的环境接下来需要配置path继续在系统变量中找到名为path的变量,点击...原创 2019-06-13 21:08:43 · 775 阅读 · 0 评论 -
Hadoop完全分布集群搭建
完全分布集群和伪分布集群不同在于:完全分布是有很多个节点组成伪分布是只在一个节点上配置完全分布集群的搭建首先需要准备四台虚拟机,配置文件和伪分布相同伪分布搭建点这里我们只需要在主节点上进行操作就可以主节点的配置Hadoop安装好后,找到etc目录下的hadoopvi slaves配置Datanode映射 把其余三台虚拟机的主机名写入保存退出即可vi hdfs-si...原创 2019-06-13 10:04:46 · 1029 阅读 · 0 评论 -
SparkStreaming接收socket数据,实现单词计数WordCount
文章目录架构图实现流程注意:执行查看效果架构图实现流程安装并启动生产者 首先在Linux服务器上用YUM安装nc工具,nc命令式netcat命令的简称,都是用来设置路由器。我们可以利用它向某个端口发送数据 yum install -y nc通过netcat工具向指定的端口发送数据 nc-lk 9999编写S...原创 2019-07-18 20:39:43 · 1276 阅读 · 0 评论