一纸春秋-CSDN博客

原创 mkl-service package failed to import解决方法

更换新电脑后，需要在windows11系统上再次部署pyspark环境。这次使用的是pycharm+Anaconda，部署完成后，记录一下部署过程中遇到的2个问题。

2023-12-19 16:40:59 1793

原创 hive sql，年月日时分秒格式的数据，以15分钟为时间段，找出每一条数据所在时间段的上下界限时间值（15分钟分区）

使用时，将’2023-10-17 10:32:45’ 替换为你的时间字段，比如data_time即可，上面的sql语句可以直接执行查看结果，用作测试。date_format(时间字段, ‘yyyy-MM-dd HH:mm:ss’) 将时间字段转为 2023-10-18 18:14:16 这种格式。我在hive里面有一张表，时间字段为data_time，里面存储的值格式为 2023-10-17 10:32:45。业务需求是15分钟为一个区间，我现在要找到这条数据所在的区间，就比如上面这条数据所在的区间为。

2023-10-25 15:15:25 1821

原创 Alink提交任务到flink集群中运行（Java）

提交Alink任务到Flink集群中运行

2022-06-30 16:12:46 1084 1

原创 Alink连接Kafka等第三方数据源的方式（插件下载与导入）

Alink连接kafka，插件下载与导入方式

2022-06-01 17:50:03 1276 1

原创牛客网sql题库（31-60题）—— 个人答案与过程解析

32 请将employees表的所有员工的last_name和first_name拼接起来作为Name，中间以一个空格区分select concat(last_name,' ',first_name) from employees;解析，两种字符串连接方式：mysql CONCAT(str1,str2,…) 和 CONCAT_WS(separator,str1,str2,…)33 建表create table actor( actor_id smallint(5) not null ,

2022-02-10 21:47:58 1476

原创 flink on yarn 提交任务报错 —— Could not deploy Yarn job cluster

这里到项目路径里面查看一下打包好的jar包打包之后的jar包如果是这两个，然后提交jar包的时候提交的flink-1.0-SNAPSHOT-jar-with-dependencies.jar 这个jar包，那么就会报上面的错误，这里应该是jar包里面的依赖出现了问题我的解决措施是，直接重新创建了一个项目然后是项目的整体pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.a.

2022-01-18 22:41:35 4348

原创 Hive练习 —— 月访问次数，学生课程成绩，年最大气温，学生选课情况，月销售额

https://www.cnblogs.com/h-kang/p/10916643.html题目和数据均来自于上面的这篇博客，我自己的这篇博客用来记录自己写的答案和解析求单月访问次数和总访问次数用户名，访问日期，访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015

2022-01-15 15:51:29 1037

原创 MySQL笔记 —— 牛客网刷题笔记

user_profile表question_practice_detail表question_detail表29.计算用户的平均次日留存率select count(date2)/count(date1)from( select distinct a.device_id, a.date as date1, b.addday as date2 from question_practice_detail as a left join (sel

2022-01-12 15:11:49 599

原创 Spark实战 —— PageRank算法的原理和实现

PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度图片来自网络，这里就根据这个图片的情况来实现PageRank算法这个图上有四个顶点，A，B，C，D，每个顶点对应一个网页。每个顶点都有若干条边，边的方向可能是指向别的顶点（当前网页的出链），也可能是别的顶点指向自己（当前网页的入链）PageRank算法会统计每个网页的入链数量，数量越多则网页越重要，那么在搜索网页的时候，重要的网页应该排在前面，更容易被搜索网页的人看到。但这样会有一个漏洞，那就是知

2022-01-05 15:02:30 2208

原创 Spark代码打包上传到集群中运行时报错ClassNotFoundException

首先准备代码import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object demo4OnHive { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("demo4OnHive") .config("spark.sql.shuffl

2022-01-04 21:43:32 1943

原创 scala练习 —— 求取年级总分前十名

前期准备数据展示，只展示部分数据学生数据 students.txt1500100001,施笑槐,22,女,文科六班成绩数据 score.txt1500100006,1000001,871500100006,1000002,981500100006,1000003,551500100006,1000007,441500100006,1000008,11500100006,1000009,29科目数据 subject.txt1000001,语文,1501000002,数学,15

2021-12-29 14:14:39 1513

原创 scala笔记 —— 利用WordCount单词统计说明map、flatMap、groupBy函数的作用与区别

使用scala实现，统计文件中每个单词的个数import scala.io.Sourceobject demo14 { def main(args: Array[String]): Unit = { //读取文件 val source = Source.fromFile("Scala/data/words.txt") //将读取到的数据放入一个List[String]类型的list集合中，每一行内容作为list的一个元素 val list: List[S

2021-12-25 23:05:59 1359

原创 Scala笔记 —— 基础语法

目录概念基本语法配置环境main方法编写函数数据类型循环结构文件读写创建实体类继承样例类反编译样例类的 .class 文件概念Scala语言具有面向对象的、函数式编程的、静态类型的、可扩展的、可以交互操作的显著特性。Scala是一门以java虚拟机（JVM）为运行环境将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言（scala是一门类java的多范式语言）（1）scala运行于java虚拟机之上，并且兼容现有的java程序（2）scala是一门纯粹的面向对象的语言（3）scala也是

2021-12-24 21:06:41 942

原创数据结构笔记 —— 二叉树删除节点

本篇博客是根据b站尚硅谷的数据结构教程，学习后写的学习笔记，本篇博客的重点在自己编写的代码注释和过程分析上https://www.bilibili.com/video/BV1E4411H73v?p=99规定：（1）如果删除的节点是叶子节点，则删除该节点（2）如果删除的节点是非叶子节点，则删除该子树思路：首先先处理：考虑如果树是空树，或者只有一个root节点，则等价于将二叉树置空然后考虑其他的情况因为我们的二叉树是单向的，所以我们是判断当前节点的子节点是否是需要删除的节点，而不能判断当前的这

2021-12-20 23:37:49 3093

原创 Mybatis笔记 —— 增删改查的具体实现

本篇博客是根据B站up @遇见狂神说的视频以及 Mybatis官网文档整理的笔记，里面会有一些视频的代码和官网的概念，以及我个人的注释笔记，代码例子等。还有很多总结内容，是我自己总结的，只是分享一些个人的看法，仅供参考全篇博客包括代码均为自己手打，结果截图均为自己运行的结果。以下是视频链接https://www.bilibili.com/video/BV1NE411Q7Nx?p=21Mybatis官网文档链接https://mybatis.org/mybatis-3/zh/index.htm

2021-12-20 22:10:43 659

原创数据结构笔记 —— 二叉树（前序、中序、后序遍历和查找）

前序遍历，中序遍历，后序遍历首先定义节点类，这里依旧是在拿梁山好汉作为节点里面的信息//先创建HeroNode节点class HeroNode { private int no; private String name; private HeroNode left; //默认为null private HeroNode right; //默认为null public HeroNode(int no,String name){ this.no =

2021-12-19 22:19:12 788

原创 Java排序算法 ——直接插入排序和希尔排序的代码实现与分析

直接插入排序核心思想：将数组分为未排序区间和已排序区间每次从未排序区间获取第一个元素，与已排序区间元素从右往左的比较，直到找到正确的索引位置，将元素插入此位置具体实现方法有两种整体后移假定未排序区间的第一个元素为num，则已排序区间内大于num的元素都往后移动一位，直到遇到一个索引位置，这个位置的前一个元素小于num，则当前位置就是num的正确位置，插入元素num的值package dataStructure;public class directSort { public s

2021-12-18 17:14:58 855

原创 Mybatis笔记 —— 运行环境的搭建与Mybatis框架的运行过程分析

本篇博客是根据B站up @遇见狂神说的视频以及 Mybatis官网文档整理的笔记，里面会有一些视频的代码和官网的概念，以及我个人的注释笔记，代码例子等。还有很多总结内容，是我自己总结的，只是分享一些个人的看法，仅供参考全篇博客包括代码均为自己手打，结果截图均为自己运行的结果。以下是视频链接https://www.bilibili.com/video/BV1NE411Q7Nx?p=21Mybatis官网文档链接https://mybatis.org/mybatis-3/zh/index.htm

2021-12-17 16:13:37 1119

原创数据结构笔记 —— 哈希表

本篇博客是根据b站尚硅谷的数据结构教程，学习后写的学习笔记，本篇博客的重点在自己编写的代码注释上https://www.bilibili.com/video/BV1E4411H73v?p=89哈希表（Hash table，也叫散列表），是根据关键码值（Key value）而直接进行访问的数据结构。也就是说，它通过映射函数把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做哈希表（散列表）哈希表一般是数组+链表或者数组+二叉树，加上哈希表的主要目的是提高

2021-12-15 15:45:35 1394

原创数据结构笔记 —— 栈

本篇博客是根据b站尚硅谷老师的数据结构教程，学习后写的学习笔记，本篇博客的重点在自己编写的代码注释上https://www.bilibili.com/video/BV1E4411H73v?p=30栈（Stack）（1）栈是一个先入后出的有序列表（2）栈是限制线性表中元素的插入和删除只能在线性表的同一端进行的一种特殊线性表，允许插入和删除的一端，为变化的一端，称为栈顶（Top），另一端为固定的一端，称为栈底（Buttom）（3）根据栈的定义可知，最先放入栈中的元素在栈底，最后放入的元素在栈顶，而删除

2021-12-15 15:19:46 1195

原创 Python笔记 —— pandas数据分析+seaborn可视化实例

现在有student.txt和score.txt数据文件，利用pandas求取每个班级的总分前三名的学生。然后将求取后的结果dataframe，利用seaborn完成数据可视化操作首先导入pandasimport pandas as pd然后利用pandas读取文件，将数据写入到dataframe里面stuDF = pd.read_csv("./data/students.txt",names=['id','name','age','gender','clazz'])scoreDF = pd.r

2021-12-14 21:36:20 1802

原创 java排序算法 —— 冒泡排序和快速排序的代码实现

时间复杂度：一个算法执行所耗费的时间空间复杂度：运行完一个程序所需内存的大小其中，稳定和不稳定是针对数组中有相同元素而说的（1）稳定：如果a原本在b的前面，而且a=b，排序之后a仍然在b的前面（2）不稳定：如果a原本在b的前面，而且a=b，排序之后a可能会出现在b的后面冒泡排序平均时间复杂度，最好情况，最坏情况，空间复杂度依次是稳定性：稳定package dataStructure;public class bubbleSort { public static void mai

2021-12-13 22:24:44 438

原创数据结构笔记 —— 单链表和双向链表

本篇博客是根据b站尚硅谷老师的数据结构教程，学习后写的学习笔记部分概念和图片均来自视频，代码和截图均为自己动手，本篇博客的重点在自己编写的代码注释上尚硅谷Java数据结构与java算法（Java数据结构与算法）单链表链表是有序的列表（Linked List），在内存中的存储方式如上图所示（1）链表是以节点的方式来存储，是链式存储（2）每个节点包含data域，next域。其中，data域用来保存当前节点要存储的数据，next域用来指向下一个节点（3）链表的各个节点不一定是连续存储（4）链表分

2021-12-13 22:23:09 931

原创 python笔记 —— 函数，类，异常，模块导入，读写数据

函数函数举例不需要权限修饰符不需要返回值类型如果函数中没有return，那么默认返回值时None# 无参函数def test(): print("hello")# 带参函数def test1(n): print("hello %d"%n)# 求和def jiecheng(n): sum = 0 while n>=1: sum += n n -= 1 print(sum)# 递归，阶乘def jie

2021-12-13 21:49:41 981

原创 python笔记 —— 四大数据结构 list，tuple，set，dict 的特点与使用语法

python里面有四大数据结构：列表list，元组tuple，集合set，字典dict列表list列表的元素可以重复列表里面元素的类型可以是任意的列表是可变的，可以对列表的元素进行修改或者删除列表是有序的，因此可以用索引去访问每个元素#创建一个list列表list = [1,1,2,2,3,4,5,'a','abc']print(list)# 分隔线print("-"*30)# 列表的增删改查#增list.append(6) #默认从尾部添加，括号里面是元素值list.in

2021-12-11 23:08:06 2127

原创 Kettle笔记 —— 利用Transformation和job完成不同数据源的数据处理和写入

Kettle是一款开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。Kattle的工程存储方式有（1）以XML形式存储，（2）以资源库方式存储（不同的用户可以共同使用）Kattle的两种设计：Transformation（转换）：针对于数据的基础转换（着重于数据的ETL过程）Job（作业）：完成整个工作流的控制（着重于不同步骤之间的控制流程）区别：一个Job中可以包含多个TransformationTransformatio

2021-12-10 21:45:12 3110

原创 Flume笔记 —— 几种常见的source，channel，sink配置文件以及相关用法

目录概念与官方文档监听文件目录数据变更，输出到控制台拦截器source监听文件目录，sink输出到hdfs将hbase日志信息写入hdfssource监听netcat端口，sink写入控制台概念与官方文档flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume系统中核心的角色是agent，agent本身是一个Java进程，一般运行在日志收集节点。一个agent内部有三个组件：Source：采集源，用于跟数据源对接，以获取数据；Channel：agent内部的数据传输通

2021-12-09 20:34:15 8341 1

原创数据集成工具 —— datax与flinkx的使用

dataxdatax只要上传到linux本地，解压即可使用，如果不想每次执行的时候都要输入路径，可以配置到环境变量里面DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步

2021-12-07 20:07:59 5222 1

原创 Sqoop笔记 —— MySQL与Hive、HBase、Hdfs的数据导入和导出

sqoop是一个开源工具，主要用处是在Hadoop（hive，hdfs，hbase）与传统的数据库（mysql，Oracle）之间进行数据的传递MySQL到hdfs的默认加载首先在mysql里面建表并加载数据然后创建一个文件夹，在里面创建编写conf文件import--connectjdbc:mysql://master:3306/student?useSSL=false--usernameroot--password123456--tablestudent--target-d

2021-12-06 21:53:00 1526

原创 MySQL笔记 ——加载和导出sql文件

导出sql文件首先进入mysql的命令行模式mysql -u root -p123456;然后建立表以及插入数据mysql> create table teacher(id int primary key ,name varchar(20),age int)engine=innodb;Query OK, 0 rows affected (0.02 sec)mysql> show tables;+-------------------+| Tables_in_student |

2021-12-06 19:40:38 903

原创 HBase快速导入巨量数据—— Bulk Loading

优点：如果我们一次性入库hbase巨量数据，处理速度慢不说，还特别占用Region资源，一个比较高效便捷的方法就是使用 “Bulk Loading”方法，即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接生成这种hdfs内存储的数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配合mapreduce完成，高效便捷，而且不占用region资源，增添负载。限制：仅适合初次数据导入，即表内数据为空.

2021-12-05 23:54:42 1858

原创 Mybatis笔记 —— 复杂查询环境搭建与多对一的处理方式

本篇博客是根据B站up@遇见狂神说的视频以及Mybatis官网文档整理的笔记，里面会有一些视频的代码和官网的概念，以及我个人的注释笔记，代码例子等。还有很多总结内容，是我自己总结的，只是分享一些个人的看法，仅供参考全篇博客包括代码均为自己手打，结果截图均为自己运行的结果。以下是视频链接https://www.bilibili.com/video/BV1NE411Q7Nx?p=21Mybatis官网文档链接https://mybatis.org/mybatis-3/zh/index.html目

2021-12-05 21:14:35 603

原创 HBase调优 —— 参数调优（触发memStore的flush过程的时机条件，具体操作，以及刷写策略）

目录触发 MemStore 的flush过程的时机（条件）Region 中任意一个 MemStore 占用的内存超过相关阈值或者 Region的全部memStore占用内存总和达到相关阈值整个 RegionServer 的 MemStore 占用内存总和大于相关阈值WAL数量大于相关阈值或WAL的大小超过一定阈值定期自动刷写数据更新超过一定阈值手动触发刷写触发 MemStore 的flush过程的操作MemStore 刷写策略（FlushPolicy）FlushAllStoresPolicyFlushAl

2021-12-05 10:10:24 1944

原创 HBase调优 —— rowkey设计的三大原则与热点问题的解决方案

在hbase中，rowkey的设计应该遵循三大原则rowkey唯一原则hbase中数据是以k-v格式存储的，rowkey可以类比为mysql里面的key值，因此在hbase的一张表里面，rowkey不应该重复。而且一个rowkey只能对应一条数据，用rowkey去get表里面的数据时，返回的应该是唯一一条对应的数据记录，不应该返回多条另外，因为rowkey是按照字典顺序排序存储的，所以可以将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。不过这样做虽然方便了scan等范围查询数据，也可能会

2021-12-04 20:53:49 3008

原创 Phoenix笔记 —— 视图映射与关联表映射

phoenix可以用sql语句的形式来操作hbase数据库中的数据，并且phoenix可以支持大部分的mysql里面的sql语法与格式。因此具体的操作，比如增删改查本篇博客不记录了，与mysql里面的sql语句差不多。但是需要注意以下，phoenix的插入语句不是insert，而是upsertupsert into “表名” values()这里记录一下phoenix与hbase的表的映射一般情况下，phoenix是查看不到在hbase中创建的表。因此如果想要在phoenix中操作hbase中的表，

2021-12-03 21:25:55 2463 1

空空如也

空空如也