自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 Spark创建DataFrame的三种方法

Spark创建DataFrame的三种方法

2022-08-21 18:54:23 4782 1

原创 Hive中自定义函数UDF、UDTF函数介绍

Hive中自定义函数UDF、UDTF函数介绍

2022-08-15 20:28:52 1229

原创 Hive中行转列和列转行问题

Hive中行转列和列转行的介绍

2022-08-15 19:42:33 538

原创 HBase的Java API操作

HBase的Java API操作代码,实现增删改查,过滤功能

2022-07-31 21:01:22 2493

原创 HDFS 的 shell 命令行常用命令介绍

HDFS 提供 shell 命令行客户端,常用命令介绍

2022-07-08 19:44:39 716

原创 HDFS的API操作

JAVA 中 HDFS 的 API 操作

2022-07-08 19:23:42 278

原创 MySQL数据库,select后面出现了没在group by里面的字段,为什么还可以执行成功?——不建议使用

以前的认知中,select的字段必须全部写在group by里面有2种情况:(基本知识,完全正确)1、使用GROUP BY 语句时,SELECT中的项目,必须在GROUP BY 中出现SELECT a, b, c FROM table1 GROUP BY a, b, c2、和聚合函数一起使用 (一般都是这么使用)SELECT a, b, sum(c) FROM table1 GROUP BY a, b遇到的问题:.

2022-03-25 17:57:58 6331 6

原创 MySQL初级教程

本系列教程包含MySQL基础语法:DDL、DML、DQL、DCL等语法;包含约束、外键、表关系、多表查询、子查询、连接查询;包含常用函数,存储引擎,事务,索引,视图和数据库三大范式等。

2022-03-25 14:52:32 1318

原创 Lambda表达式

Lambda是Java 8 添加的一个新的特性,Lambda表达式就是一个匿名函数,也可以理解为一个匿名方法。作用是实现了函数式接口(只含有一个抽象方法的接口),即Lambda表达式本身是对接口里的抽象方法进行重写,表达式中的参数和返回值根据抽象方法来决定,最终整个Lambda表达式就是该接口的实现对象。

2022-03-12 01:52:16 577

原创 JDBC介绍

JDBC是接口,而JDBC驱动是接口的实现,没有驱动就无法完成数据库连接!每个数据库厂商都有自己的驱动,用来连接自己公司的数据库。简单地说,JDBC 可做三件事:与数据库建立连接、发送 操作数据库的语句并处理结果。

2022-03-11 01:04:16 1019

原创 Hadoop相关组件界面端口号

通用的端口号:1、HDFS页面:500702、YARN的管理界面:80883、HistoryServer的管理界面:198884、Zookeeper的服务端口号:21815、Mysql的服务端口号:33066、Hive.server1=100007、Kafka的服务端口号:90928、Azkaban界面:84439、Hbase界面:16010,6001010、Spark的界面:808011、Spark的URL:7077...

2022-02-23 22:50:58 552

原创 SparkStreaming业务逻辑处理的一些高级算子

1、reduceByKey  reduceByKey 是按key进行计算,操作的数据是每个批次内的数据(一个采集周期),不能跨批次计算。如果需要实现对历史数据的跨批次统计累加,则需要使用updateStateByKey算子或者mapWithState算子。package com.sparkscala.streamingimport org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.dstream.{DStream,

2022-02-15 22:18:56 1069 1

原创 Spark Streaming 常见的输入数据源(以WordCount计算为例)

  SparkStreaming中的数据抽象叫做DStream。DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一步处理。因此, 在一个为批次的处理时间间隔里, DStream只产生一个RDD。...

2022-02-15 21:29:07 1789

原创 SparkStreaming输出算子foreachRDD介绍

  SparkStreaming中的数据抽象叫做DStream。DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一步处理。因此, 在一个为批次的处理时间间隔里, DStream只产生一个RDD。foreachRDD、foreachPartition和foreach 的区别:首先是作用范围不

2022-02-15 19:23:14 1715

原创 SparkSQL写Hive语句时报错:org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)Lorg/apache/

再用Spark写Hive语句时,出现以下错误:原因:是 hadoop.dll 文件版本的问题。Hadoop在访问本地文件和HDFS文件系统时,需要使用本地库,本地库中使用了Windows的API来实现类posix的文件访问许可,而这个本地库的实现就是hadoop.dll和winutils.exe。由于是本地Windows安装启动的Hadoop,故需要hadoop.dll文件,Hadoop版本是3.2.2的,但是hadoop.dll文件版本对不上。解决:将hadoop安装文件中的bin

2022-02-12 01:51:03 1204

转载 MySQL 本地Windows系统安装和配置详解(localhost)

1. 概述目的:在本地Windows系统安装MySQL,配置本地环境。说明:如果只需要远程连接数据库,那么就不需要在本地安装 MySQL。2. 安装步骤2.1 检查系统是否已安装 MySQL检查方法:1. 快捷键 Win + r,打开运行窗口2. 输入 services.msc3. 在 '服务(本地)' 列表中,搜索是否有 mysql 服务 若有,则表示:本地已安装 若无,则表示:没有安装2.2 下载地址官方下载:MySQL Community Server

2022-02-10 20:29:56 1869

转载 Scala快速入门(适用于学习Spark)

Scala介绍Scala是一种针对JVM 将面向函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格。Scala融汇了许多前所未有的特性,让开发者能够很好的而同时又运行于JVM之上。随着大数据的日益发展,scala必定会成为必不可少的开发语言。

2022-02-09 20:13:21 6652

转载 Scala中Map方法

Scala Map 常用的方法:1 def ++(xs: Map[(A, B)]): Map[A, B]返回一个新的 Map,新的 Map xs 组成2 def -(elem1: A, elem2: A, elems: A*): Map[A, B]返回一个新的 Map, 移除 key 为 elem1, elem2 或其他 elems。3 def --(xs: GTO[A]): Map[A, B]返回一个新的 Map, 移除 xs 对象中对应的 key4 def get(key: A.

2022-02-09 20:10:56 2018

转载 Scala中Set方法

Scala Set 常用方法:1 def +(elem: A): Set[A]为集合添加新元素,x并创建一个新的集合,除非元素已存在2 def -(elem: A): Set[A]移除集合中的元素,并创建一个新的集合3 def contains(elem: A): Boolean如果元素在集合中存在,返回 true,否则返回 false。4 def &(that: Set[A]): Set[A]返回两个集合的交集5 def &~(that: Set[A]): .

2022-02-09 20:08:38 1377

转载 Scala中List方法

List方法总结:1 def +(elem: A): List[A] 前置一个元素列表2 def ::(x: A): List[A] 在这个列表的开头添加的元素。3 def :::(prefix: List[A]): List[A] 增加了一个给定列表中该列表前面的元素。4 def ::(x: A): List[A] 增加了一个元素x在列表的开头5 def addString(b: StringBuilder): StringBuilder 追加列表的一.

2022-02-09 20:06:16 405

转载 Scala中数组Array方法

Array 数组方法和描述1 def apply( x: T, xs: T* ): Array[T]创建指定对象 T 的数组, T 的值可以是 Unit, Double, Float, Long, Int, Char, Short, Byte, Boolean。2 def concat[T]( xss: Array[T]* ): Array[T]合并数组3 def copy( src: AnyRef, srcPos: Int, dest: AnyRef, destPos: Int, len.

2022-02-09 20:01:57 441

转载 Scala中String方法

String 方法 char charAt(int index)返回指定位置的字符 从0开始 int compareTo(Object o)比较字符串与对象 int compareTo(String anotherString)按字典顺序比较两个字符串 int compareToIgnoreCase(String str)按字典顺序比较两个字符串,不考虑大小写 String concat(String str)将指定字符串连接到此字符串的结尾 boolean conte.

2022-02-09 19:57:25 531

转载 Scala的安装使用

Scala介绍Scala是一种针对JVM 将面向函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格。Scala融汇了许多前所未有的特性,让开发者能够很好的而同时又运行于JVM之上。随着大数据的日益发展,scala必定会成为必不可少的开发语言。Spark1.6中使用的是Scala2.10版本;Spark2.0版本以上使用是Scala2.11版本。Scala官网6个特征:1).

2022-02-09 15:45:59 542

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除