自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 INFO org.apache.hadoop.ipc.Client解决方式

今天在使用Flink运行Jar包,一直无法连接,Yarn一直连接不上,很是费解,百度了后说是更改core-site.xml配置文件,或者是注释/etc/hosts下的127.0.1.1端口,俩者都尝试过也无法解决解决方案,进入/root/tmp目录,然后ll查看是否有.yarn-properties-root这个配置文件然后删除或者改个后缀名之后就可以运行了...

2019-08-22 21:02:44 975

原创 Flink的概述

文章目录什么是flink组件有界和无界数据状态事件驱动的api流或批处理的api高级别的apiFlink运行程序多样化Flink的应用场景什么是flink       Apache Flink是一个开源的分布式,高性能,高可用,准确的流处理框架。支持实时流处理和批处理    &nbs...

2019-08-16 11:26:33 141

原创 Flume概述

文章目录什么是Flume运行机制传输过程Flume采集架构图简单例子什么是Flume       Flume是Cloudera提供的一个高可用,高可靠,分布式的海量日志采集,聚合和传输的软件。       Flume的核心是把数据从数据源(source)...

2019-08-15 15:35:03 116

原创 Hbase增删改查Scala代码实现

Hbase增删改查Java代码实现开门见山,如下:我们依然需要导入pom依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version...

2019-08-08 10:30:44 261

原创 HBASE代码开发(基本增删改查Java实现)

直接开门见山,代码如下:这里是要引入的pom包<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</ver...

2019-08-08 10:27:16 602

原创 HBASE简介概述-----看过的人月薪都破万

什么是HBASEhbase是基于Google BigTable模型开发的,典型的key/value系统。是建立在HBFS之上,提供高可靠性高性能、列存储、可伸缩、实时读写nosql的数据库系统。它是Apache Hadoop生态系统中的重要一员,主要用于海量结构化和半结构化数据存储。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可...

2019-08-08 10:17:40 124

原创 Spark SQL、DateFrame、DataSet详细概述

Spark SQL的前世今生Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用哦过户可以加速Hive的查询,但是Shark继承了Hive的大且负责的代码使得Shark很难优化和维护,同时Shark依赖Spark的版本。随着我们遇到了性能优化的上限,以及集成SQL的一些...

2019-07-19 10:11:05 274

原创 SparkStreaming接受socket数据,实现单词计数累加

文章目录架构图实现流程执行查看效果       SparkStreaming接收socket数据,实现单词计数WordCount       在上面的案例中存在一个问题,每个批次的单词次数都被正确的统计出来,但是结果不能累加!如果需要累加需要使用updat...

2019-07-18 21:04:54 543

原创 SparkStreaming接收socket数据,实现单词计数WordCount

文章目录架构图实现流程注意:执行查看效果架构图实现流程安装并启动生产者     首先在Linux服务器上用YUM安装nc工具,nc命令式netcat命令的简称,都是用来设置路由器。我们可以利用它向某个端口发送数据 yum install -y nc通过netcat工具向指定的端口发送数据 nc-lk 9999编写S...

2019-07-18 20:39:43 647

原创 Scalar基础

类的定义在Scala中,类并不用声明为public类型的Scala源文件中可以包含多个类,所有这些类都具有共同可见性//定义了一个类class Person{ //用val修饰的变量是可读属性,有getter但没有setter val id = "9527" //用var修饰的变量既有getter,也有setter var age:Int = 18 //类私有字段,只能在类...

2019-07-09 21:06:20 182

原创 Scala学习小白必看

文章目录为什么要学习ScalaScala的介绍什么是多范式Scala语言和Java语言的对比Scala懒加载Scala差值器Scala访问修饰符Scala类型转换Scala技能练习为什么要学习Scala因为在线计算需要Spark和Scala,Spark的底层是Scala,Scala基于Java开发效率高,运行速度快Scala的介绍Scala是一门多范式的编程语言,既是面向对象也是函数式编...

2019-07-05 20:01:08 228

原创 关于hive常用命令

什么是hivehive是Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。可以快速简单实现MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。hive为什么依赖mysqlhive只是个工具,包括它的数据分析,依赖于mapreduce,它的数据管理,依...

2019-06-20 21:09:42 108

原创 Hive的安装

Hive的安装上传tar包并进行解压安装mysql数据库(推荐使用yum在线安装)配置hive配置HIVE_HOME环境变量vi conf/hive-env.sh配置其中的$hadoop_home=(这里写hadoop的路径)接着配置元数据库信息,继续写入命令vi hive-site.xml添加如下内容<configuration> <property&...

2019-06-19 20:14:16 61

原创 zookeeper分布式协调服务简介

什么是zookeeperzookeeper是一个分布式的,开放源码的协调服务,是Hadoop和Hbase重要组件,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护,域名服务,分布式同步,组服务等。zookeeper下的角色zookeeper下大致有三种角色leader 领导者:发起一个请求,并且投票follower 跟从者:响应leader的请求并发起投票observ...

2019-06-18 21:39:43 209

原创 概述Hadoop2.0中Yarn

什么是YarnApache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。为什么要使用YarnHadoop经历主要经历了两个版本。在Hadoop v2.0的版本中...

2019-06-17 16:52:45 481

原创 在Eclipse上如何进行Map/Reduce分布式计算

Eclipse分布式计算项目构建进行计算数据出现次数**第一步:**在Eclipse中右键项目空白区域,NEW一个新的Other,选择Map/Reduce Project进行创建,输入项目名称后创建,如下图:**第二步:**在构建出来的项目下右键点击srcOther俩个新的类,一个为Mapper,另一个为Reducer,之后还要创建一个普雷的类,用来获取集群中文件路径和加载自己的集群配置...

2019-06-14 20:24:04 250

原创 浅谈分布式计算的思想

Map/Reduce分布式计算的思想通俗来说合久必分 分久必合大数据处理原则—计算找数据大体概括Map/reduce计算操作1.数据传过来,计算程序分发2.提前先对数据进行清洗去除掉脏数据3.会提前进行一次小的聚合4.将聚合之后的数据连同剩余的数据进行运输(shuffle运输)这也是最影响效率最浪费时间的一步(传输需要走网络磁盘io)5.在reduce端进行一个大合并,也就是最...

2019-06-14 20:01:02 509

原创 用eclipse操作Hadoop集群的常用的JUnit单元测试

引入配置文件//引入配置文件 Configuration conf=null; //创建文件流——引用的是hadoop内部封装的方法 FileSystem fs=null;设置执行前后@Before public void conn() throws IOException{ conf = new Configuration(true);//设置是否读取配置信息 f...

2019-06-13 21:24:53 175

原创 如何在Eclipse上操作Hadoop

在Eclipse上如何对Hadoop进行操作,首先需要配置环境变量由上图可见,需要配置俩个环境变量,一个是HADOOP_HOME,需要将工具类的地址输入另一个是HADOOP_USER_NAME,因为在虚拟机中,root是最高权限用户,所以我们为了eclipse和Hadoop关联,需要在环境配置中把配置一个值为root的环境接下来需要配置path继续在系统变量中找到名为path的变量,点击...

2019-06-13 21:08:43 480

原创 Hadoop完全分布集群搭建

完全分布集群和伪分布集群不同在于:完全分布是有很多个节点组成伪分布是只在一个节点上配置完全分布集群的搭建首先需要准备四台虚拟机,配置文件和伪分布相同伪分布搭建点这里我们只需要在主节点上进行操作就可以主节点的配置Hadoop安装好后,找到etc目录下的hadoopvi slaves配置Datanode映射 把其余三台虚拟机的主机名写入保存退出即可vi hdfs-si...

2019-06-13 10:04:46 815

原创 Hadoop伪分布式搭建

使用Hadoop-2.6.5进行伪分布式搭建首先输入命令yum install lrzsz -y进行lrzsz安装,lrzsz是一款在linux里可代替ftp上传和下载的程序。安装过程中耐心等待,出现下图情况即安装成功输入rz进行文件上传,我自己是在/opt目录下创建了一个software目录,用来安装文件上传jdk和Hadoop...

2019-06-12 23:40:20 188

原创 浅谈大数据持久化概念

SecondaryNamenode 持久化什么是持久化为了保证元数据的安全,将内存中的数据存放到磁盘中就是持久化。元数据:描述数据的数据为什么要使用持久化当我们的集群因断电等特殊原因产生问题,数据丢失的时候,等重新开机时,可以去磁盘上读取元数据,把数据恢复到断电前的状态NameNode不能进行持久化的原因由于NameNode自身工作已经很多,有可能在持久化过程中宕机,所以...

2019-06-11 19:55:07 627

原创 大数据概览及当下实用的主流开发

本篇文章是对于大数据的一些基本看法,以便让一些想学习大数据的朋友进一步去了解。近年来大数据异常火爆,随着科技的不断更新迭代,大数据,成为了每天议论的热门话题。去找度娘问什么是大数据,显示出来的结果长篇大论令人应接不暇,而且回答都比较偏抽象,一时半会儿也难以理解大数据到底是一个什么样的方向,所以我在这里给大家一些我个人对于大数据的理解和看法:1)什么是大数据大数据是在短时间内快速产生大量...

2019-06-10 20:37:14 129

原创 (推荐小白)Linux中Shell脚本简单编写(九九乘法表 简易计算器 阶乘 ...)

在linux下会写Shell脚本是非常重要的,下面我参照例子给大家展示几个脚本,在参考之余顺便学习Shell的语法#!/bin/bash是脚本使用/bin/bash来解释执行,#!是表示符,之后是这个脚本的Shell的路径。脚本的每一行都需要表明Shell的路径,即#!/bin/bash九九乘法表 如下:#!/bin/bashfor((i=1;i<=9;i++))dofor((...

2019-06-09 21:25:44 1883 1

installMysql.sh

Hive依赖的Mysql,在Linux内执行脚本就可以了,耐心等待安装。

2019-06-19

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除