自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 大数据技术之SparkSQL(一)-spark sql 的介绍,特点,Data Frame,DataSet的介绍

第一章Spark SQL概述1、什么是Spark SQL?Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快

2020-05-25 09:42:32 296

原创 spark基本介绍

1、什么是sparkspark是y一种基于内存的快速、通用、课扩展的大数据分析引擎2、spark的内置模块spark sql:结构化数据spark stream:实时计算spark Milb:机器学习spark Graghx:图计算集群管理器:spark设计为可以高效的在一个计算节点到数千个计算节点之间伸缩计算3、spark特点快、易用、通用、兼容性4、spark的重要角色Driver:Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkCon

2020-05-23 18:27:52 295

原创 idea中创建maven项目之后,出现Cannot resolve plugin org.apache.maven.plugins:maven-clean-plugin:2.5插件下载失败的解决方法

在idea中创建maven项目出现图片中的错误:出现这个错误的主要原因是:本地maven的配置文件和仓库地址不一致。解决方法有:1、参考该博主:https://www.cnblogs.com/phpdragon/p/7216626.html(一方法解决不了看二方法)2、一方法解决不了的原因可能是:(二方法解决不了看三方法)联通网段不能访问maven的下载地址换句话说就是因为网络问题导致不能下载插件,那我们就来多配几个镜像!!!所以:在找到apache-maven-3.2.2\conf下的s

2020-05-17 13:23:36 6739 8

原创 JVM总结(一)

什么是JVMJVM是可运行Java代码的假想计算机,包括一套字节码指令集,一个寄存器,一个栈,一个垃圾回收,堆,一个存储方法域JVM的作用想要运行一个Java代码,需要具备JRE环境。而JRE中,包括Java虚拟机及Java的核心类库。Java程序员通常安装的JDK,则已经包括了JRE,还附带了常用的开发和诊断工具。在Java语言中,最重要的莫过于Java虚拟机。为什么需要有Java虚拟机呢?Java 作为一门高级程序语言,它的语法非常复杂,抽象程度也很高。因此,直接在硬件上运行这种复杂的程序并不

2020-07-30 18:42:51 199

原创 spring框架

1.1 Spring概述1)Spring是一个开源框架2)Spring为简化企业级开发而生,使用Spring,JavaBean就可以实现很多以前要靠EJB才能实现的功能。同样的功能, 在EJB中要通过繁琐的配置和复杂的代码才能够实现,而在Spring中却非常的优雅和简洁。3)Spring是一个IOC(DI)和AOP容器框架。4)Spring的优良特性依赖注入:DI——Dependency Injection(加注解加粗样式),**反转控制(IOC)**最经典的实现。void test() {

2020-07-28 17:56:25 137

原创 大数据面试题之shell

shell面试题1、shell常用工具awk:文本处理工具sed:利用脚本来处理文本文件,是一款流编辑工具,用来对文本进行过滤和替换操作cut:选取工具,就是将一段数据经过分析,取出我们想要的数据sort:排序工具2、用shell写脚本1)集群启动脚本2)数仓与mysql的导入导出3)数仓层级内部的导入3、企业面试题(linux和shell)百度问题:Linux常用命令参考答案:find、df、tar、ps、top、netstat等。(尽量说一些高级命令)瓜子二手车问题:Lin

2020-06-10 13:06:13 666 1

原创 大数据面试题之linux

linux面试题一般linux面试题常问的是linux的常用命令以下是它的常用命令top查看内存df -h查看磁盘的存储情况iotop查看磁盘io读写iotop -o查看比较高的磁盘读写情况netstart -tunlp grep 端口号查看端口的占用情况uptime查看报告系统运行时长及平均负载ps aux查看进程...

2020-06-10 12:47:34 306

原创 LeetCode12:数值的整数次方(Java实现)

题目描述给定一个double类型的浮点数base,和一个int类型整数exponent求:base的exponent的次方题目分析1、首先判断base和exponent是否合法?0的负数次幂不合法,0的0次方默认为02、考虑exponent正负,如果为负数,base为特别小特别小的小数,则直接跑出异常,0的负数次幂是没有意义的代码实现private double power(double b, int e) throws Exception { double result =

2020-05-27 21:18:48 186 1

原创 LeetCode题11:二进制中1的个数

题目描述输入一个整数,输出该数二进制表示中1的个数,其中负数用补码表示题目分析进过分析得出:n&(n-1)!=0的次数就是1的次数代码实现private int numberof1(int n) { int count = 0; while (n != 0){ count++; n = n & (n-1); } return count; }...

2020-05-27 20:37:31 160 2

原创 LeetCode 题10:矩形覆盖(Java实现)

题目描述矩形覆盖:用2x1的小矩形横着竖着去覆盖更大的矩形,请问用n个2x1的小矩形去覆盖一个2xn的大矩形,共有多少种方法?题目分析此题跟LeetCode题8的解题方法其实是一样的,都是用1或者2表示n,表示方法共有几种根据分析,得出f(n) = f(n-1)+f(n -2),f(1)=1,f(2)=2*代码实现(Java)public int rectCover(int n){ int sum = 1; int temp = 1; if (

2020-05-27 20:21:09 303 1

原创 LeetCode题9:变态跳台阶

问题描述一只青蛙一次可以跳上一级台阶,也可以跳上二级台阶,… ,也可以跳上n阶台阶。求:青蛙跳上n阶台阶共有多少种跳法?问题分析经过一系列的分析,发现f(n)=2f(n-1)代码实现(Java)public long jumb(int n) { int sum = 0; int temp = 1; if (n == 0)return 0; if (n == 1)return temp;// return 2*jumb

2020-05-27 19:57:57 277 1

原创 leetcode题8:跳台阶(Java实现)

问题描述一只青蛙一次可以跳上一级台阶,也可以跳上二级台阶,求:青蛙跳上n阶台阶共有多少种跳法?需求分析该问题可以看做是n是有几个1和几个2相加得到的!经过分析发现该问题是裴波那切数列的升级版n1234…f(n)1235…发现规律f(n)=f(n-1)+f(n-2)代码实现 public long Jump(int a) { long sum = 1; long tmp = 1; if (a <

2020-05-27 18:40:38 144

原创 LeetCode题7:裴波那切数列(Java实现)

题目描述写一个函数,输入N,输出裴波那切数列的第N项什么叫裴波那切数列斐波那契数列(Fibonacci sequence),又称黄金分割数列、因数学家列昂纳多·斐波那契(Leonardoda Fibonacci)以兔子繁殖为例子而引入,故又称为“兔子数列”,指的是这样一个数列:1、1、2、3、5、8、13、21、34、……在数学上,斐波那契数列以如下被以递推的方法定义:F(1)=1,F(2)=1, F(n)=F(n - 1)+F(n - 2)(n ≥ 3,n ∈ N*)在现代物理、准晶体结构、化学等领

2020-05-27 13:08:22 345 2

原创 LeetCode题6:旋转数组的最小数字(Java实现)

题目描述:把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。 输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素。 例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转,该数组的最小值为1。 NOTE:给出的所有元素都大于0,若数组大小为0,请返回0。思路分析遍历整个数组,即可找到最小数字,但是没有用到旋转,则该方法不行;但是我们可以用二分查找的思想,做一下。代码实现public Integer fingminNum(int[] a){ if (

2020-05-27 11:54:35 128 1

原创 怎么获取idea中程序得运行的时间

定于时间变量long startTime=System.currentTimeMillis(); //获取开始时间 //要测的程序或方法 long endTime=System.currentTimeMillis(); //获取结束时间 System.out.println("程序运行时间: "+(endTime-startTime)+"ms");

2020-05-27 11:08:00 8143

原创 LeetCode题5:用两个栈实现队列(Java实现)

用两个栈实现队列,实现两个函数appendtail和deleteHead,分别完成在队尾插入节点和队头删除节点的功能Java语言实现import java.util.Stack;/** * 用两个栈实现队列 * 用两个栈实现队列,分别完成队头删节点,队尾加节点 */public class problem7 <T>{ private Stack<T> stack1 = new Stack<T>(); private Stack<T>

2020-05-26 22:33:27 190 1

原创 初学 Spark Streaming,请多指教

Spark Streaming是什么Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫作

2020-05-26 21:40:00 119 1

原创 DataFrame与DataSet的互操作

DataFrame转换为DataSet1)创建一个DateFramescala> val df = spark.read.json("examples/src/main/resources/people.json")df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]2)创建一个样例类scala> case class Person(name: String, age: Long)defined class

2020-05-26 21:30:10 148

原创 大数据技术之spark SQL-DataFrame、DataSet、RDD之间的共性与区别

RDD、DataFrame、DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中,DataSet会逐步取代RDD和DataFrame

2020-05-26 21:27:15 306

原创 大数据之spark core(五)-spark 三大数据结构:RDD、广播变量、累加器

spark的三大数据结构1、RDD分布式数据集输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。

2020-05-25 08:38:50 348 1

原创 大数据技之spark core(四)

第四章、数据读取与保存1、文件类数据读取与保存Text文件1)数据读取:textFile(String)scala> val hdfsFile = sc.textFile("hdfs://hadoop102:9000/fruit.txt")hdfsFile: org.apache.spark.rdd.RDD[String] = hdfs://hadoop102:9000/fruit.txt MapPartitionsRDD[21] at textFile at <console>

2020-05-25 07:27:02 103

原创 大数据技术之Sparkcore (三)

第三章键值对RDD数据分区器Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意:(1)只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的。1、获取RDD分区器可以通过使用RDD的par

2020-05-24 11:59:59 120

原创 大数据技术之spark core(二)

RDD编程1、编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运行时可以通过管道的方式传输多个转换。要使用Spark,开发者需要编写一个Driver程序,它被

2020-05-23 22:51:56 251

原创 大数据技术之spark core(一)

第一章 RDD概述1、介绍RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2、RDD的属性1)一组分区(Partition),即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner,即RDD的分片函数;5)一个列表,存储存取每个Partition的优先位置(preferred locatio

2020-05-23 21:11:45 186

原创 Win7上安装及使用bash.exe

bash.exe的作用使得我们可以在Windows上直接运行Linux的软件安装教程1、window10下的安装可以看该博客:https://blog.csdn.net/weixin_39745207/article/details/78533489?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.

2020-05-22 11:21:27 1554 1

原创 IDEA下Maven依赖包下载不下来的问题解决方案

出现图片中的以下问题依赖下载不下来解决方法:找到maven所在的包例如F:\workstation\develop\maven\apache-maven-3.2.2打开F:\workstation\develop\maven\apache-maven-3.2.\conf下settings.xml文件给settings里面添加以下镜像<mirror> <id>nexus</id> <name>internal ne

2020-05-21 11:28:17 641

原创 window7下的截图快捷键

1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后, 可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可 。2、按Ctrl+Prtsc键截图这样截屏获得的内容也是整个电脑屏幕,与上面的截图方法功能一样,也可直接粘贴使用。3、按Alt+Prtsc键截图这个快捷键只截取当前活动窗口的内容,如果打开了某个使用中的软件,然后使用Alt+Prtsc组合键截图,截屏的界面就是软件显示界面,不是全屏的,更精准一些。通过这种方式的截图也可以直接粘贴

2020-05-21 11:15:58 336

原创 Windows下MongoDB的下载安装、环境配置

【转】Windows下MongoDB的下载安装、环境配置

2020-05-17 18:05:04 160

原创 leetcode题4:重建二叉数

题目:已知二叉数的前序和中序的结果,重建出该二叉数Java代码实现二叉数的构造public class BinaryTreeNode { public static int value; BinaryTreeNode leftnode; BinaryTreeNode rightnode;}功能实现:import java.util.Arrays;public class Test { public static void main(String[] args

2020-05-17 14:18:47 88 1

原创 leetcode题3:从头到尾打印链表

题目:输入一个链表的节点,从头到尾反过来打印出每个节点的值Java代码实现如下;1.链表的创建//定义链表public class ListNode { int val; ListNode nextnode;}2、功能实现(方法一)public class PrintListReverse { public void PrintListReverse(ListNode headNode) { Stack<ListNode> stack

2020-05-17 14:13:13 99

原创 leetcode题2:替换空格

题目:请实现一个函数。把字符串中的每个空格替换成“%20”例如:hello,how are you? ----> hello,how%20are%youJava代码实现如下:方法一:public class Exchange { public String replaceSpace(String arr){ if (arr == null) return null; StringBuffer stringBuffer = new StringB

2020-05-17 14:04:01 95

原创 leetcode题1:二维数组中的查找

题目描述:在一个二维数组中,每一行从左到右递增,每一列从上到下递增,输入一个二维数组和一个整数,判断数组中是否含有整数例如以下二维数组:1 2 3 42 3 4 54 5 6 7Java代码实现如下:public class ArrayFund { public boolean Find(int[][] array , int target){ int row = array.length;//行数 if (row == 0) return false

2020-05-17 13:55:59 186 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除