自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 作业5:画metadata表关系

2018-07-31 19:44:00 177

原创 作业4:本地HUE搭建步骤

HUE官方网站本地HUE搭建步骤官方介绍1.安装前的环境准备:sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel make mysql mysql-devel ...

2018-07-30 13:30:36 595

原创 Spark项目的创建&Spark-shell用法

Spark 2.2.0 is built and distributed to work with Scala 2.11 by default. (Spark can be built to work with other versions of Scala, too.) To write applications in Scala, you will need to use a compatib...

2018-07-27 22:31:50 1033

原创 什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD的属性(五大特性):(1)一组分片(P...

2018-07-26 21:27:26 5435

原创 Scala中的隐式转换

上节课的补充:算子=函数=APICurrying(颗粒化):作用是将两个参数的函数,转换成两个函数,第一个函数的参数为两个参数函数的第一个参数,同理,第二个函数的参数为第二个参数。scala> def sum(x:Int,y:Int) = x + ysum: (x: Int, y: Int)Int scala> sum(1,2)res16: Int = 3 sca...

2018-07-26 21:05:00 181

原创 Scala高阶函数及模型匹配

1.高阶函数介绍:map: val list=List(1,2,3,4,5,6,7,8,9) println(list.map((x:Int)=>x*2)) //自动推断int类型 println(list.map((x)=>x*2)) //一个参数,可去括号 println(list.map(x=>x*2)) //一个...

2018-07-24 20:32:03 343

原创 作业3:用Scala完成wordCount操作

源数据:hello hive goodmand good mandgood goodmand hello hive源码:package com.ruozedataimport scala.io.Sourceobject wordCount { def main(args: Array[String]): Unit = { val b = Source.fr...

2018-07-23 13:36:19 495

原创 Scala面向对象2与集合

Object&Class    1.object与静态类相似2.object可以用类名加方法直接调用,不用new对象。    同名:“伴生”    称为:object是class的伴生对象,class是object的伴生类    ApplyApp()    ==> 伴生对象()是没有new的,其实底层调用的就是伴生Object里面的apply方法  class和...

2018-07-22 16:27:06 142

原创 Scala面向对象1

scala: 官网下载tar包  + 设置环境变量 + 安装前提:jdk1.数据类型: asInstanceOf :将对象类型强制转换为指定类型。isInstanceOf:判断对象是否为指定类型 scala> 1.isInstanceOf[String] res0: false scala> List(1).isInstanceOf[List[String]]...

2018-07-22 15:03:41 195

原创 作业2:通过Scala以固定格式写数据到文件

题目要求:写数据到文件的操作: val randomFile = new RandomAccessFile("Path\\outputFile.txt","rw") val fileLength = randomFile.length; //得到文件长度 randomFile.seek(fileLength);//指针指向文件末尾 randomFile.w...

2018-07-22 14:29:31 1083

原创 作业1:通过ScalikeJDBC对MySQL进行增删查改

通过IDEA+Maven+Scala搞定在pom.xml文件中添加依赖 <dependency> <groupId>org.scalikejdbc</groupId> <artifactId>scalikejdbc_2.11</artifactId> <version>${s...

2018-07-20 21:02:33 1451

原创 Spark编译

Apache Spark™ is a unified analytics engine for large-scale data processing.我所使用的Spark是Spark2.2.0版本1.首先从官网下载源码,解压。2.个人目录介绍app                         存放安装软件software                  存放软件包的jardata ...

2018-07-20 20:44:06 667

原创 知识结构梳理1(各软件简介,用途)

Hadoop:Apache Hadoop项目为可靠、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的框架。它被设计成从单个服务器扩展到数千台机器,每个机器提供本地计算和存储。而不是依赖于硬件来提供高可用性,库本身被设计成检测和处理应用层的故障,因此在计算机群集的顶部提供高度可用的服务。              该项目...

2018-07-18 13:48:09 2864

原创 Sqoop-1.4.6-cdh5.7.0.tar.gz安装 + Sqoop 简单操作

Sqoop安装1 下载1.    下载地址http://archive.cloudera.com/cdh5/cdh/5/2.    环境sqoop-1.4.6-cdh5.7.0.tar.gz版本2 上传到linux上,并解压[hadoop@ruozehadoop000 software]$ tar -xzvf sqoop-1.4.6-cdh5.7.0.tar.gz –C~/app修改用户和用户组 ...

2018-07-14 22:31:48 1142 1

转载 自定义函数sayhello 注册到hive 源码中,并且重新编译hive

环境: hive-1.1.0-cdh5.7.0 包 放在了 /root 下面 cdh 采用 cdh5.7.0 目标: 将自定义函数sayhello  注册到hive 源码中,并且重新编译hive1、编写UDF (1)使用idea+maven,在maven中添加相关参数。 重要的是 hadoop-common 、hive-exec 、hive-jdbc 以下为我的maven,文件头修改下,其他可以直...

2018-07-14 15:12:27 294

原创 Hive 函数UDF开发以及永久注册UDF函数

explode: (把一串数据转换成多行的数据)创建一个文本:[hadoop@ruozehadoop000 data]$ vi hive-wc.txthello,world,welcomehello,welcome创建一个表,并导入文本内容create table hive_wc(sentence string); load data local inpath '/home/hadoop/data...

2018-07-14 14:21:51 8152

转载 Hive - DML 分区表 内部函数

DDL  创建数据库,创建表对于表的操作:1、创建表 2、复制表结构 3、复制一个表的数据过来 create table as select insert overwrite插入的时候如果有一列,和源数据信息的列,位置搞错了,不按正常写,就会出现报错,数据错乱所有在插入的时候需要慎重,列的数量,列的类型,以及列的顺序都写清楚。内部表和外部表:Hive上有两种类型的表,一种是Managed Tabl...

2018-07-13 00:16:08 476

转载 Hive - DML整理版

1. 相关说明DML=Data Manipulation Language 数据操作语言。HIVE的DML中,update和delete一般不会用,生产数据是不会删除的,常用overwrite和load做数据的转换。insert into values 也一般不会用,离线批处理,一些实时的数据insert场景并不多,这个命令只是从关系型数据库兼容过来的。2. LOAD操作HIVE的DML,从OS或...

2018-07-12 23:33:10 145

转载 Hive - DDL 整理版

1. 相关说明DDL=Date Definition Language,数据定义语言。学习hive的HQL的DDL相关语法,建议对照官方WIKI,因为语法参数较多,而且和SQL多有相似,不建议记忆,梳理一下,记住相关可以实现的功能和注意点以及和SQL之间的区别即可。 官方WIKI打开: 浏览器访问 http://hive.apache.org, 找到”Getting Started Guide”,...

2018-07-12 23:28:46 140

原创 Hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。  SELECT a.key, a.val...

2018-07-12 22:55:06 243

转载 Hive结构化数据、半结构化数据和非结构化数据

在实际应用中,我们会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型:结构化数据:能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。传统的关系数据模型、行数据,存储...

2018-07-11 20:27:19 6208

原创 Hive的安装部署

Hive环境的搭建/home/hadoop/      (目录)             software  存放安装软件                  hadoop-2.6.0-cdh5.7.0.tar.gz                  hive-1.1.0-cdh5.7.0.tar.gz             data 存放测试数据             source 存放源代码...

2018-07-11 20:07:56 166

原创 Hadoop-2.6.0-cdh5.7.0安装步骤

1.下载Hadoop和JDK   下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz   下载jdk:http://mvnrepository.com/artifact/mysql/mysql-connector-java/5.1.272.安装JDK   2.1解压jdk压缩包  tar -z...

2018-07-11 19:41:08 782

原创 YARN 生产详解

   参考学长博客,加了点自己的理解,学长的博客很详细,还只是弄懂了大半。高级班开课在即,赶进度,赶完基础班内容后我会对基础班的内容逐一总结归纳。 YARN(主从) 资源  + 作业调度管理YARN:是一种新的 Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 Resour...

2018-07-11 00:00:58 303

原创 Hadoop生态系统官网、下载地址、文档

Apache版本:Hadoop官网:http://hadoop.apache.org/Hadoop下载:http://mirror.bit.edu.cn/apache/hadoop/common/Hadoop历史版本下载:http://archive.apache.org/dist/hadoop/core/Hadoop文档:http://hadoop.apache.org/docs/Hive官网:...

2018-07-10 19:32:03 658

原创 MapReduce架构设计

MapReduceMap    映射函数Reduce 规约函数在hadoop1.x MR1中(计算+资源作业调度)分为JobTrackerTaskTracker: map task  reduce task在hadoop2.x MR2中 计算  资源作业调度-->YARN(资源管理和作业调度放到了yarn平台)1.不需要部署组件2.架构设计(面试题)--》MR JOB提交到yarn的工作流程...

2018-07-09 01:16:26 544

原创 hdfs回收站机制

1.启动回收站:1.1编辑core-site.xml文件添加以下属性:<property><!--多长时间创建CheckPoint NameNode截点上运行的CheckPointer 从Current文件夹创建CheckPoint;默认:0 由fs.trash.interval项指定 --> <name>fs.trash.checkpoint.interval...

2018-07-07 21:35:55 637

原创 hadoop pid文件及如何修改路径

pid内容为各进程的进程号通过ps -ef | grep a  查询a的pid,精确杀死某进程[hadoop@hadoop000 sbin]$ cat hadoop-daemon.sh |grep pid#   HADOOP_PID_DIR   The pid files are stored. /tmp by default.(pid默认存储在/tmp目录)pid=$HADOOP_PID_DIR...

2018-07-07 21:15:50 3422

原创 HDFS文件的读写操作剖析

一、HDFS的一些基本概念: 数据块(block):大文件会被分割成多个block进行存储,block大小默认为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。namenode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。datanode:datanode就负责存储了,当然大部分容错机制都是在datanode...

2018-07-06 23:38:07 239

原创 HDFS命令操作

命令基本格式:hadoop fs -cmd < args >          hdfs dfs =hadoop fs1.lshadoop fs -ls /1列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /1列出hdfs文件系统所有的目录和文件2.puthadoop fs -put < local file > < hdfs file &...

2018-07-06 23:35:04 365

原创 spark 在yarn执行job时一直报0.0.0.0:8030错误

按照常规思路,首先检查配置文件:yarn-site.xml 。查看里面配置的yarn.resourcemanager.scheduler.address 是否为master。<property> <name>yarn.resourcemanager.hostname</name> <value...

2018-07-06 06:42:29 541

原创 YARN伪分布式部署及jps的生产正确使用流程

YARN伪分布式部署 hadoop]$ cp mapred-site.xml.template mapred-site.xml hadoop]$ vi mapred-site.xml<configuration>    <property>        <name>mapreduce.framework.name</name>        &lt...

2018-07-06 04:38:22 384

原创 Hadoop用户重新部署伪分布式(HDFS)

上次课我们部署的使用的root用户,在生产环境中,不可能给你root用户,我们就创建一个hadoop用户重新部署伪分布式(HDFS)Hadoop用户重新部署hdfs步骤1.创建Hadoop用户# useradd hadoop# id hadoop# passwd haddop# vi /etc/sudoers hadoop ALL=(root) NOPASSWD:ALL2.部署ssh,确保其...

2018-07-06 04:29:44 283

原创 Hadoop用户启动hdf三个进程

前言:再上次的课程中我们配置了root用户来启动了hdfs,hdfs-site.xml内的参数都是官方默认的参数,所以启动项没有整理比较乱,为了做生产标准统一规范使用,我要用hadoop用户启动hdfs进程的启动显示全部为hadoop-01的主机名,先看看root用户下启动的情况可以看到namenodes datanode sercondary namenodes 进程启动的名称都不相同,接下来会...

2018-07-06 04:26:03 1466

原创 Hadoop伪分布式部署 HDFS (hadoop用户)

环境要求java、ssh添加hadoop用户[root@hadoop-01 ~]# useradd hadoop[root@hadoop-01 ~]# vi /etc/sudoers# 找到root ALL=(ALL) ALL,添加hadoop ALL=(ALL) NOPASSWD:ALL上传并解压[root@hadoop-01 software]# rz #上...

2018-07-06 04:15:08 449 2

原创 Hadoop官网使用教程

Hadoo官网查看单节点安装步骤:1.登录Hadoop主页,http://hadoop.apache.org/2.找到左侧的Documentation,点击下拉箭头找到我们现在正在使用的Hadoop版本3.若泽大数据课程的Hadoop版本为Release 2.8.3,单击进入。4.点击左侧的 Single Node Setup 5.找到了单节点的安装部署信息单节点部署Hadoop网站地址:http...

2018-07-06 02:05:29 4842

原创 Hadoop伪分布式模式部署 HDFS(root用户)

Hadoop伪分布式模式部署Hadoop2.x:官网:hadoop.apache.org三个组件:HDFS:分布式文件系统,存储MapReduce:分布式计算Yarn:资源(cpu + memory)和JOB调度监控文档地址:    http://hadoop.apache.org/docs/r2.8.2/部署方式:1.单机模式(Standalone):1个Java进程2.伪分布模式(Pseudo...

2018-07-03 23:49:01 377

原创 Hadoop 编译

1.官网:http://hadoop.apache.org/2.Hadoop的狭义和褒义认识:狭义:软件(HDFS、MapReduce、Yarn)褒义:以Hadoop为主的生态圈3.Hadoop版本Hadoop1.x:    HDFS:分布式文件系统,存储    MapReduce:分布式计算+资源调度和作业调度Hadoop2.x    HDFS:存储    MapReduce:计算    Yar...

2018-07-03 23:25:27 157

原创 MySQL常用命令和SQL语法

MySQL的基本概念:database db :数据库table : 表db1:t1, t2, t3db2:t2, t3, t4字段类型:整数型:int小数型:float/double字符:char字符串:varchar时间:timestamp常规命令:使用某个数据库:        use 数据库名;查看数据库下面所有的表:        show tables;查看某个表的表结构:      ...

2018-07-02 23:00:53 143

原创 Linux常用命令汇总

1. 查看当前ip - linux# ifconfig查看当前ip - windowscmd -> ipconfig2.CRT/XSHELL 链接 Linux3.文件创建  vi 和 touch xxx.log 创建一个空的文件  结果:  4.文件夹创建  mkdir xxx  创建1层  mkdir -p 1/2/3 连续创建3层...

2018-07-02 22:48:13 584

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除