2401号行者-CSDN博客

原创大数据技术之SparkSQL（一）-spark sql 的介绍，特点，Data Frame,DataSet的介绍

第一章Spark SQL概述1、什么是Spark SQL?Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快

2020-05-25 09:42:32 337

原创 spark基本介绍

1、什么是sparkspark是y一种基于内存的快速、通用、课扩展的大数据分析引擎2、spark的内置模块spark sql:结构化数据spark stream：实时计算spark Milb:机器学习spark Graghx:图计算集群管理器：spark设计为可以高效的在一个计算节点到数千个计算节点之间伸缩计算3、spark特点快、易用、通用、兼容性4、spark的重要角色Driver:Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkCon

2020-05-23 18:27:52 334

原创 idea中创建maven项目之后，出现Cannot resolve plugin org.apache.maven.plugins:maven-clean-plugin:2.5插件下载失败的解决方法

在idea中创建maven项目出现图片中的错误：出现这个错误的主要原因是：本地maven的配置文件和仓库地址不一致。解决方法有：1、参考该博主：https://www.cnblogs.com/phpdragon/p/7216626.html（一方法解决不了看二方法）2、一方法解决不了的原因可能是：（二方法解决不了看三方法）联通网段不能访问maven的下载地址换句话说就是因为网络问题导致不能下载插件，那我们就来多配几个镜像！！！所以：在找到apache-maven-3.2.2\conf下的s

2020-05-17 13:23:36 6842 8

原创 JVM总结（一）

什么是JVMJVM是可运行Java代码的假想计算机，包括一套字节码指令集，一个寄存器，一个栈，一个垃圾回收，堆，一个存储方法域JVM的作用想要运行一个Java代码，需要具备JRE环境。而JRE中，包括Java虚拟机及Java的核心类库。Java程序员通常安装的JDK，则已经包括了JRE，还附带了常用的开发和诊断工具。在Java语言中，最重要的莫过于Java虚拟机。为什么需要有Java虚拟机呢？Java 作为一门高级程序语言，它的语法非常复杂，抽象程度也很高。因此，直接在硬件上运行这种复杂的程序并不

2020-07-30 18:42:51 237

原创 spring框架

1.1 Spring概述1)Spring是一个开源框架2)Spring为简化企业级开发而生，使用Spring，JavaBean就可以实现很多以前要靠EJB才能实现的功能。同样的功能，在EJB中要通过繁琐的配置和复杂的代码才能够实现，而在Spring中却非常的优雅和简洁。3)Spring是一个IOC(DI)和AOP容器框架。4)Spring的优良特性依赖注入：DI——Dependency Injection（加注解加粗样式），**反转控制(IOC)**最经典的实现。void test() {

2020-07-28 17:56:25 178

原创大数据面试题之shell

shell面试题1、shell常用工具awk:文本处理工具sed:利用脚本来处理文本文件，是一款流编辑工具，用来对文本进行过滤和替换操作cut:选取工具，就是将一段数据经过分析，取出我们想要的数据sort：排序工具2、用shell写脚本1）集群启动脚本2）数仓与mysql的导入导出3）数仓层级内部的导入3、企业面试题（linux和shell）百度问题：Linux常用命令参考答案：find、df、tar、ps、top、netstat等。（尽量说一些高级命令）瓜子二手车问题：Lin

2020-06-10 13:06:13 730 1

原创大数据面试题之linux

linux面试题一般linux面试题常问的是linux的常用命令以下是它的常用命令top查看内存df -h查看磁盘的存储情况iotop查看磁盘io读写iotop -o查看比较高的磁盘读写情况netstart -tunlp grep 端口号查看端口的占用情况uptime查看报告系统运行时长及平均负载ps aux查看进程...

2020-06-10 12:47:34 359

原创 LeetCode12：数值的整数次方（Java实现）

题目描述给定一个double类型的浮点数base，和一个int类型整数exponent求：base的exponent的次方题目分析1、首先判断base和exponent是否合法？0的负数次幂不合法，0的0次方默认为02、考虑exponent正负，如果为负数，base为特别小特别小的小数，则直接跑出异常，0的负数次幂是没有意义的代码实现private double power(double b, int e) throws Exception { double result =

2020-05-27 21:18:48 226 1

原创 LeetCode题11：二进制中1的个数

题目描述输入一个整数，输出该数二进制表示中1的个数，其中负数用补码表示题目分析进过分析得出：n&(n-1)！=0的次数就是1的次数代码实现private int numberof1(int n) { int count = 0; while (n != 0){ count++; n = n & (n-1); } return count; }...

2020-05-27 20:37:31 193 2

原创 LeetCode 题10：矩形覆盖（Java实现）

题目描述矩形覆盖：用2x1的小矩形横着竖着去覆盖更大的矩形，请问用n个2x1的小矩形去覆盖一个2xn的大矩形，共有多少种方法？题目分析此题跟LeetCode题8的解题方法其实是一样的，都是用1或者2表示n,表示方法共有几种根据分析，得出f(n) = f(n-1)+f(n -2),f(1)=1,f(2)=2*代码实现（Java）public int rectCover(int n){ int sum = 1; int temp = 1; if (

2020-05-27 20:21:09 367 1

原创 LeetCode题9：变态跳台阶

问题描述一只青蛙一次可以跳上一级台阶，也可以跳上二级台阶，… ,也可以跳上n阶台阶。求：青蛙跳上n阶台阶共有多少种跳法？问题分析经过一系列的分析，发现f(n)=2f(n-1)代码实现（Java）public long jumb(int n) { int sum = 0; int temp = 1; if (n == 0)return 0; if (n == 1)return temp;// return 2*jumb

2020-05-27 19:57:57 324 1

原创 leetcode题8：跳台阶（Java实现）

问题描述一只青蛙一次可以跳上一级台阶，也可以跳上二级台阶，求：青蛙跳上n阶台阶共有多少种跳法？需求分析该问题可以看做是n是有几个1和几个2相加得到的！经过分析发现该问题是裴波那切数列的升级版n1234…f(n)1235…发现规律f(n)=f(n-1)+f(n-2)代码实现 public long Jump(int a) { long sum = 1; long tmp = 1; if (a <

2020-05-27 18:40:38 182

原创 LeetCode题7：裴波那切数列（Java实现）

题目描述写一个函数，输入N,输出裴波那切数列的第N项什么叫裴波那切数列斐波那契数列（Fibonacci sequence），又称黄金分割数列、因数学家列昂纳多·斐波那契（Leonardoda Fibonacci）以兔子繁殖为例子而引入，故又称为“兔子数列”，指的是这样一个数列：1、1、2、3、5、8、13、21、34、……在数学上，斐波那契数列以如下被以递推的方法定义：F(1)=1，F(2)=1, F(n)=F(n - 1)+F(n - 2)（n ≥ 3，n ∈ N*）在现代物理、准晶体结构、化学等领

2020-05-27 13:08:22 389 2

原创 LeetCode题6：旋转数组的最小数字（Java实现）

题目描述：把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个非递减排序的数组的一个旋转，输出旋转数组的最小元素。例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转，该数组的最小值为1。 NOTE：给出的所有元素都大于0，若数组大小为0，请返回0。思路分析遍历整个数组，即可找到最小数字，但是没有用到旋转，则该方法不行；但是我们可以用二分查找的思想，做一下。代码实现public Integer fingminNum(int[] a){ if (

2020-05-27 11:54:35 163 1

原创怎么获取idea中程序得运行的时间

定于时间变量long startTime=System.currentTimeMillis(); //获取开始时间 //要测的程序或方法 long endTime=System.currentTimeMillis(); //获取结束时间 System.out.println("程序运行时间： "+(endTime-startTime)+"ms");

2020-05-27 11:08:00 8668

原创 LeetCode题5：用两个栈实现队列（Java实现）

用两个栈实现队列，实现两个函数appendtail和deleteHead,分别完成在队尾插入节点和队头删除节点的功能Java语言实现import java.util.Stack;/** * 用两个栈实现队列 * 用两个栈实现队列，分别完成队头删节点，队尾加节点 */public class problem7 <T>{ private Stack<T> stack1 = new Stack<T>(); private Stack<T>

2020-05-26 22:33:27 227 1

原创初学 Spark Streaming，请多指教

Spark Streaming是什么Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。和Spark基于RDD的概念很相似，Spark Streaming使用离散化流(discretized stream)作为抽象表示，叫作

2020-05-26 21:40:00 142 1

原创 DataFrame与DataSet的互操作

DataFrame转换为DataSet1）创建一个DateFramescala> val df = spark.read.json("examples/src/main/resources/people.json")df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]2）创建一个样例类scala> case class Person(name: String, age: Long)defined class

2020-05-26 21:30:10 194

原创大数据技术之spark SQL-DataFrame、DataSet、RDD之间的共性与区别

RDD、DataFrame、DataSet在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中，DataSet会逐步取代RDD和DataFrame

2020-05-26 21:27:15 364

原创大数据之spark core（五）-spark 三大数据结构:RDD、广播变量、累加器

spark的三大数据结构1、RDD分布式数据集输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。

2020-05-25 08:38:50 396 1

原创大数据技之spark core(四)

第四章、数据读取与保存1、文件类数据读取与保存Text文件1）数据读取:textFile(String)scala> val hdfsFile = sc.textFile("hdfs://hadoop102:9000/fruit.txt")hdfsFile: org.apache.spark.rdd.RDD[String] = hdfs://hadoop102:9000/fruit.txt MapPartitionsRDD[21] at textFile at <console>

2020-05-25 07:27:02 127

原创大数据技术之Sparkcore （三）

第三章键值对RDD数据分区器Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意：(1)只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围：0~numPartitions-1，决定这个值是属于那个分区的。1、获取RDD分区器可以通过使用RDD的par

2020-05-24 11:59:59 148

原创大数据技术之spark core（二）

RDD编程1、编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。要使用Spark，开发者需要编写一个Driver程序，它被

2020-05-23 22:51:56 294

weixin_41731982的博客