看见我的小熊没-CSDN博客

转载 Spark创建DataFrame的三种方法

Spark创建DataFrame的三种方法

2022-08-21 18:54:23 4782 1

原创 Hive中自定义函数UDF、UDTF函数介绍

Hive中自定义函数UDF、UDTF函数介绍

2022-08-15 20:28:52 1229

原创 HBase的Java API操作

HBase的Java API操作代码，实现增删改查，过滤功能

2022-07-31 21:01:22 2493

原创 HDFS 的 shell 命令行常用命令介绍

HDFS 提供 shell 命令行客户端，常用命令介绍

2022-07-08 19:44:39 716

原创 HDFS的API操作

JAVA 中 HDFS 的 API 操作

2022-07-08 19:23:42 278

原创 MySQL数据库，select后面出现了没在group by里面的字段，为什么还可以执行成功？——不建议使用

以前的认知中，select的字段必须全部写在group by里面有2种情况：（基本知识，完全正确）1、使用GROUP BY 语句时，SELECT中的项目，必须在GROUP BY 中出现SELECT a, b, c FROM table1 GROUP BY a, b, c2、和聚合函数一起使用 (一般都是这么使用)SELECT a, b, sum（c） FROM table1 GROUP BY a, b遇到的问题：.

2022-03-25 17:57:58 6331 6

原创 MySQL初级教程

本系列教程包含MySQL基础语法：DDL、DML、DQL、DCL等语法；包含约束、外键、表关系、多表查询、子查询、连接查询；包含常用函数，存储引擎，事务，索引，视图和数据库三大范式等。

2022-03-25 14:52:32 1318

原创 Lambda表达式

Lambda是Java 8 添加的一个新的特性，Lambda表达式就是一个匿名函数，也可以理解为一个匿名方法。作用是实现了函数式接口（只含有一个抽象方法的接口），即Lambda表达式本身是对接口里的抽象方法进行重写，表达式中的参数和返回值根据抽象方法来决定，最终整个Lambda表达式就是该接口的实现对象。

2022-03-12 01:52:16 577

原创 JDBC介绍

JDBC是接口，而JDBC驱动是接口的实现，没有驱动就无法完成数据库连接！每个数据库厂商都有自己的驱动，用来连接自己公司的数据库。简单地说，JDBC 可做三件事：与数据库建立连接、发送操作数据库的语句并处理结果。

2022-03-11 01:04:16 1019

原创 Hadoop相关组件界面端口号

通用的端口号：1、HDFS页面：500702、YARN的管理界面：80883、HistoryServer的管理界面：198884、Zookeeper的服务端口号：21815、Mysql的服务端口号：33066、Hive.server1=100007、Kafka的服务端口号：90928、Azkaban界面：84439、Hbase界面：16010,6001010、Spark的界面：808011、Spark的URL：7077...

2022-02-23 22:50:58 552

原创 SparkStreaming业务逻辑处理的一些高级算子

1、reduceByKey reduceByKey 是按key进行计算，操作的数据是每个批次内的数据（一个采集周期），不能跨批次计算。如果需要实现对历史数据的跨批次统计累加，则需要使用updateStateByKey算子或者mapWithState算子。package com.sparkscala.streamingimport org.apache.log4j.{Level, Logger}import org.apache.spark.streaming.dstream.{DStream,

2022-02-15 22:18:56 1069 1

原创 Spark Streaming 常见的输入数据源(以WordCount计算为例)

SparkStreaming中的数据抽象叫做DStream。DStream是抽象类，它把连续的数据流拆成很多的小RDD数据块，这叫做“微批次”， spark的流式处理，都是“微批次处理”。 DStream内部实现上有批次处理时间间隔，滑动窗口等机制来保证每个微批次的时间间隔里，数据流以RDD的形式发送给spark做进一步处理。因此，在一个为批次的处理时间间隔里， DStream只产生一个RDD。...

2022-02-15 21:29:07 1789

原创 SparkStreaming输出算子foreachRDD介绍

SparkStreaming中的数据抽象叫做DStream。DStream是抽象类，它把连续的数据流拆成很多的小RDD数据块，这叫做“微批次”， spark的流式处理，都是“微批次处理”。 DStream内部实现上有批次处理时间间隔，滑动窗口等机制来保证每个微批次的时间间隔里，数据流以RDD的形式发送给spark做进一步处理。因此，在一个为批次的处理时间间隔里， DStream只产生一个RDD。foreachRDD、foreachPartition和foreach 的区别：首先是作用范围不

2022-02-15 19:23:14 1715

原创 SparkSQL写Hive语句时报错：org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String；)Lorg/apache/

再用Spark写Hive语句时，出现以下错误：原因：是 hadoop.dll 文件版本的问题。Hadoop在访问本地文件和HDFS文件系统时，需要使用本地库，本地库中使用了Windows的API来实现类posix的文件访问许可，而这个本地库的实现就是hadoop.dll和winutils.exe。由于是本地Windows安装启动的Hadoop，故需要hadoop.dll文件，Hadoop版本是3.2.2的，但是hadoop.dll文件版本对不上。解决：将hadoop安装文件中的bin

2022-02-12 01:51:03 1204

转载 MySQL 本地Windows系统安装和配置详解（localhost）

1. 概述目的：在本地Windows系统安装MySQL，配置本地环境。说明：如果只需要远程连接数据库，那么就不需要在本地安装 MySQL。2. 安装步骤2.1 检查系统是否已安装 MySQL检查方法：1. 快捷键 Win + r，打开运行窗口2. 输入 services.msc3. 在 '服务（本地）' 列表中，搜索是否有 mysql 服务若有，则表示：本地已安装若无，则表示：没有安装2.2 下载地址官方下载：MySQL Community Server

2022-02-10 20:29:56 1869

转载 Scala快速入门(适用于学习Spark)

Scala介绍Scala是一种针对JVM 将面向函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。Scala融汇了许多前所未有的特性，让开发者能够很好的而同时又运行于JVM之上。随着大数据的日益发展，scala必定会成为必不可少的开发语言。

2022-02-09 20:13:21 6652

转载 Scala中Map方法

Scala Map 常用的方法：1 def ++(xs: Map[(A, B)]): Map[A, B]返回一个新的 Map，新的 Map xs 组成2 def -(elem1: A, elem2: A, elems: A*): Map[A, B]返回一个新的 Map, 移除 key 为 elem1, elem2 或其他 elems。3 def --(xs: GTO[A]): Map[A, B]返回一个新的 Map, 移除 xs 对象中对应的 key4 def get(key: A.

2022-02-09 20:10:56 2018

转载 Scala中Set方法

Scala Set 常用方法：1 def +(elem: A): Set[A]为集合添加新元素，x并创建一个新的集合，除非元素已存在2 def -(elem: A): Set[A]移除集合中的元素，并创建一个新的集合3 def contains(elem: A): Boolean如果元素在集合中存在，返回 true，否则返回 false。4 def &(that: Set[A]): Set[A]返回两个集合的交集5 def &~(that: Set[A]): .

2022-02-09 20:08:38 1377

转载 Scala中List方法

List方法总结：1 def +(elem: A): List[A] 前置一个元素列表2 def ::(x: A): List[A] 在这个列表的开头添加的元素。3 def :::(prefix: List[A]): List[A] 增加了一个给定列表中该列表前面的元素。4 def ::(x: A): List[A] 增加了一个元素x在列表的开头5 def addString(b: StringBuilder): StringBuilder 追加列表的一.

2022-02-09 20:06:16 405

转载 Scala中数组Array方法

Array 数组方法和描述1 def apply( x: T, xs: T* ): Array[T]创建指定对象 T 的数组, T 的值可以是 Unit, Double, Float, Long, Int, Char, Short, Byte, Boolean。2 def concat[T]( xss: Array[T]* ): Array[T]合并数组3 def copy( src: AnyRef, srcPos: Int, dest: AnyRef, destPos: Int, len.

2022-02-09 20:01:57 441

转载 Scala中String方法

String 方法 char charAt(int index)返回指定位置的字符从0开始 int compareTo(Object o)比较字符串与对象 int compareTo(String anotherString)按字典顺序比较两个字符串 int compareToIgnoreCase(String str)按字典顺序比较两个字符串，不考虑大小写 String concat(String str)将指定字符串连接到此字符串的结尾 boolean conte.

2022-02-09 19:57:25 531

转载 Scala的安装使用

Scala介绍Scala是一种针对JVM 将面向函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。Scala融汇了许多前所未有的特性，让开发者能够很好的而同时又运行于JVM之上。随着大数据的日益发展，scala必定会成为必不可少的开发语言。Spark1.6中使用的是Scala2.10版本；Spark2.0版本以上使用是Scala2.11版本。Scala官网6个特征：1).

2022-02-09 15:45:59 542

qq_40078490的博客