自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Spark集群的详细安装步骤以及idea编写WordCount程序

前面我们简单讲述了一些为什么要学习scala?scala和Spark是个怎样的关系。通过我们前面的讲解我们也知道了spark底层是用scala来编写的 ,要想学好spark 我们就必须会scala这门语言。那么我们今天就来简单讲解一下Spark文章目录Spark入门一、Spark概述1.1什么是Spark1.2为什么要学习Spark1.3Spark特点1.3.1快1.3.2易用1.3.3通...

2019-07-19 15:20:25 526

原创 Scala中类、方法、对象、继承、特质的学习

文章目录一、类、方法、对象、继承、特质1、类1.1.1类的定义语法案例1.1.2方法的定义语法案例1.1.3构造器2、对象1.2.1 Scala中的object1.2.2 Scala中的半生对象1.2.3 Scala中的apply方法1.2.3 Scala中的main方法3、继承4、特质(Traits)二、模式匹配和样例类一、类、方法、对象、继承、特质1、类1.1.1类的定义类是对象的抽象...

2019-07-19 14:22:50 340

原创 大数据之初识Scala语言Scala语言的学习(二)

今日内容0.值类型隐式转换1.强制类型装换2.值类型和字符串类型的转换3.判断语句4.循环语句5.循环跳出语句6.元祖的介绍和使用7.数组的介绍和使用8.集合的介绍和使用文章目录0.值类型隐式转换1)有多种类型进行混合运算时,系统首先将所有的类型,转换成精度最大的那种数据类型,然后再进行计算2)当我们把精度大的类型赋值给精度小的类型时,就会出现错误,反之就是3)(byte,sh...

2019-07-09 11:43:24 482

原创 大数据之初识Scala语言Scala语言的学习

文章目录1.为什么要学习Scala?1、spark底层是用Scala语言编写2、Scala基于Java ,开发效率高运行速度快2.Scala的简单介绍3.与Java语言的对比相同点:不同点:4.编译工具的安装5.main方法讲解语法6.常量和变量1)定义2)语法7.数据类型8.懒加载1)scala 中使用lazy 关键字修饰变量,就是惰性变量,实现延迟加载2)案例演示3)好处9.差值器Scala语...

2019-07-05 21:11:07 842 1

原创 大数据之Hive操作分区和分桶

前言:我们上一篇文章简述了一下Hive,对Hive有了简单而又基本的基础了解。简单回顾一下,上一篇讲了Hive的基本概念,它包括Hive的定义、优缺点、架构原理以及Hive和SQL的比较。并且安装了Hive,熟悉了Hive的基本操作。那么今天我们会讲述一些Hive的一些DDL数据定义、DML数据操作。文章目录四、DDL数据定义4.1 创建数据库4.2 修改数据库4.3 查询数据库4.3.1 显...

2019-06-20 23:52:12 627

原创 大数据技术之Hive

文章目录初识Hive一、Hive基本概念1.1 什么是Hive1.2 Hive的优缺点1.2.1优点1.2.2缺点1.2.2.1 Hive的HQL表达能力有限1.2.2.2 Hive的效率比较低1.3Hive的架构原理1)用户接口:Client2)元数据:Metastore3)Hadoop、HDFS、MapReduce4)驱动器:Driver1.4Hive和的数据库比较二、Hive安装环境准备2....

2019-06-19 21:04:12 439

原创 大数据技术之Zookeeper概述

前言传统系统的问题:系统中的单点的风险,单点崩溃,整个系统就不能用了。传统单点解决方案:利用协调软件进行双击热备。传统主备协调方案的认识:协调软件本身不是分布式的,只能配置一个。只能一个主一个备初识Zookeeper1.概述1.1 Zookeeper定义Zookeeper是google的Chubby的一个开源实现Zookeeper:是Apache组织下的高性能,分布...

2019-06-18 23:08:02 488

原创 大数据之Hadoop生态圈中的MapReduce学习

版权声明:本文为博主原创文章,未经博主允许不得转载。大数据之MapReduce学习(简易见解)前言继我们上篇讲了HDFS的客户端操作之后,我们今天来分享一下Hadoop生态圈中第二个重要组成部分——MapReduce。一、MapReduce入门首先我们要知道MapReduce是在Hadoop生态圈中是个什么位置能做什么。1.1MapReduce定义MapReduce是一种分布式运...

2019-06-14 21:05:37 620

原创 大数据之Hadoop中HDFS客户端操作(第四篇)

HDFS客户端操作继上篇Hadoop入门第三篇后,我们今天来说一下HDFS客户端的操作。准备工作:这里我们先用伪分布式来说一下,所以我们要先有一个伪分布式。1、HDFS客户端环境准备1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:C:\Study\tools)。2)配置环境变量1)配置系统环境变量1.2.1.1 配置jdk的环境变量...

2019-06-13 21:34:13 586

原创 大数据技术之Hadoop入门(第三篇)伪分布式和完全分布式的搭建

继Hadoop入门第二篇之后,今天我们进行一下Hadoop运行环境的搭建三、Hdoop运行环境搭建1. 首先要虚拟机搭建在创建Hadoop运行环境前我们先要有一台Linux,所以打开虚拟机创建一台Linux。这里我选择了大小不到400M的CentOS-6.5-x86_64-minimal2、 设置虚拟机网络模式2.1 查看自己的网络IP子网掩码等信息这里我们主要更改三个主要文件...

2019-06-12 23:22:16 931

原创 大数据技术之Hadoop入门(第二篇)

大数据技术之Hadoop入门(第二篇)继续上篇文章Hadoop入门今天来简单的说一下HDFS中的SecondaryNameNode 副节点 和持久化在上篇文章中说过了Secondary NameNode(Snn 后面都写作SNN):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照一、SNNSNN的主要工作(1)Secondary NameNode询问NameN...

2019-06-11 21:31:01 5337 5

原创 大数据技术之Hadoop入门

大数据技术之Hadoop入门一、大数据概论大数据概论大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决,海量数据的存储和海量数据的分析计算问题。自我认为:大数据就是在短时间内快速产生大量**多种多样的有价值**的信息。大数据的特点...

2019-06-10 21:01:45 2542

原创 大数据技术之Linux基础

大数据技术之Linux基础一、Linux入门概述1.1概述Linux内核最初只是由芬兰人林纳斯•托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位...

2019-06-10 15:43:07 872 2

原创 shell脚本编程和Linux命令

这里写自定义目录标题功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、Linux命令1. | :管道,将前者命令...

2019-06-10 07:14:45 950 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除