a 茶叶蛋吃蛋白不吃蛋黄-CSDN博客

原创 spark sql map类型转换 map＜string,float＞转成 map＜int,float＞

【代码】spark sql map类型转换 map＜string,float＞转成 map＜int,float＞

2023-10-10 09:54:15 555

原创 Hive sql随机读取数据抽样数据

普通的随机筛选100条数据select *from xxxorder by rand()limit 100每个用户筛选几条数据select *from ( select *, row_number() over(partition by mid order by rand() ) as rn from xxx ) awhere

2021-10-12 15:10:40 1071

原创 HIVE SQL分位数percentile使用方法案例

percentile：percentile(col, p) col是要计算的列（值必须为int类型），p的取值为0-1，若为0.2，那么就是2分位数，依次类推。percentile_approx：percentile_approx(col, p)。列为数值类型都可以。percentile_approx还有一种形式percentile_approx(col, p，B)，参数B控制内存消耗的近似精度，B越大，结果的精度越高。默认值为10000。当col字段中的distinct值的个数小于B时，结果就为准

2021-09-10 11:29:32 6374

原创 Spark性能优化调优根据Spark UI进行调优记录

SPARK-SQL优化三剑客：1内存2并发3CPU1、内存： spark的dirver和executor内存及对应spark作业参数涉及内存调优就三个参数：spark.driver.memory ，-executor-memory 和 spark.yarn.executor.memoryOverhead2、并发：提高有shuffle（join, group by 等等数据混洗的场景）及对应业务逻辑SQL参数涉及并发优化就1个参数：spark.sql.shuffle.partitions3、CPU：

2021-08-26 16:57:11 2555 1

原创 ClickHouse设计思想

Hbase的核心思想设计1、内存 + 磁盘：保证处理效率，也保证数据安全2、内存：必须经过设计，内存具备优秀的数据结构，保证基本的读写高效，甚至为了不同的需求，可以让读写效率倾斜。3、磁盘：数据必须存放在磁盘，保证数据安全。磁盘数据文件必须经过精心设计，保证扫描磁盘数据文件的高效率4、数据排序：在海量数据中要想保证低延时的随机读写操作，数据最好是排序的5、范围分区：当数据排序之后，可以进行范围分区，来平摊负载，让多台服务器联合起来对外提供服务6、跳表：基于数据排序+范围分区构建索引表，形成跳表的

2021-06-25 15:21:38 225

原创 Flink_SQL Interval Join

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_stream_join2 { public static void main(Str

2021-06-23 16:04:15 640

原创 Flink_SQL双流常规关联join

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_stream_join { public static void main(Stri

2021-06-18 17:40:28 729 1

原创 Flink_SQL关联维表

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_join { public static void main(String[] ar

2021-06-18 15:08:50 988

原创 Flink_SQL时间窗口聚合数据

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_groupby { public static void main(String[]

2021-06-18 14:36:14 798

原创 iceberg+Spark3.0-sql测试

在Iceberg官方下载页面（http://iceberg.apache.org/releases/）1、用的是spark3.0最新的，下载对应的jar包，放到spark的jars目录下2、在spark-defaults.conf添加默认参数spark.sql.catalog.hive_prod org.apache.iceberg.spark.SparkCatalogspark.sql.catalog.hive_prod.type hivespark.sql.catalog.hive_p

2021-04-14 10:56:10 904 2

原创 hive一行两列转多行两列

今天在做业务的时候遇到一个一行转多行，并且关联的问题。记录一下‘a,b,c,d’,‘1,2,3,4’弄成a 1b 2c 3d 4可以通过炸裂+排序辅助SQL：select single_t1, single_t2from ( select row_number() over(PARTITION BY '1' ORDER BY '1' DESC) as j, single_t1

2021-02-04 18:17:07 298

原创 Python获取知乎热榜信息用钉钉freFeedCardMsg消息展示

import requests # 导入requests包import jsonimport timefrom bs4 import BeautifulSoup# 知乎URLurl = 'https://www.zhihu.com/billboard'headers = {"User-Agent": "", "Cookie": ""}# 获取知乎热榜数据def get_hot_zhihu(): res = requests.get(url, headers=headers

2021-01-07 14:42:07 431

原创元数据管理之Atlas

元数据管理之Atlas学生表：create table student(id string comment '学号',name string comment '姓名',sex string comment '性别',age string comment '年龄',class_id int comment '班级ID') comment '学生表';插入数据insert into student values('2','小明','男','13','2');insert into s

2020-06-25 21:10:24 1394

原创 Flink自定义Source

package com.ygy.testimport org.apache.flink.streaming.api.functions.source.SourceFunctionimport org.apache.flink.streaming.api.scala._object TestFlink04 { def main(args: Array[String]): Unit = { //环境 val env: StreamExecutionEnvironment = Str

2020-05-09 15:48:42 229

原创使用mr将hbase数据存入mysql中

这个是mr程序package com.ygy.mr.test;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.io.Immutable

2020-05-08 19:14:55 272

原创 Flink接受kafka发送的消息

HBase默认建表时有一个region，这个region的rowkey是没有边界的，即没有startkey和endkey，在数据写入时，所有数据都会写入这个默认的region，随着数据量的不断增加，此region已经不能承受不断增长的数据量，会进行split，分成2个region。在此过程中，会产生两个问题：1.数据往一个region上写,会有写热点问题。2.region split会消耗宝贵...

2020-05-08 10:01:18 287

原创用java操作Hbase api

package com.ygy.demo;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import java.io.IOException;public class test1 { publ...

2020-05-08 08:52:32 166

原创 ClassLoader获取文件配置值

package com.ygy.test;import java.io.IOException;import java.io.InputStream;import java.util.Properties;public class demo1 { public static void main(String[] args) throws IOException { ...

2020-05-08 08:39:22 169

原创 Spark中的宽依赖和窄依赖

先看图片判断宽窄依赖的根本：父类分区内的数据，会被子类RDD中的指定的唯一一个分区所消费。如果是，那么就是窄依赖，如果不是则为宽依赖那么我想了想如果使用repartition和coalesce那么是怎么样呢。具体的实现：package com.ygy.sparkTestimport org.apache.spark.rdd.RDDimport org.apache.spark.{S...

2020-05-05 20:25:11 217

原创 CentOS 7字符界面安装教程（图文详解）

2020-04-17 12:04:57 1491 1

转载 JSTL标签库介绍

JSTL标签库介绍学习链接https://www.cnblogs.com/xdp-gacl/p/3943390.html

2019-12-21 11:31:02 102

原创 javaJsoup爬取网站文章生成文件保存在本地

javaJsoup爬取网站文章生成文件保存在本地前言：导入jar包，这是目标链接https://www.iyiou.com/kcjiedu/1.html，它是有分页的，所以根据分页网址的变化生成分页对应的网址，爬取下载内容到本地磁盘maven： <dependency> <groupId>org.jsoup</groupId> &lt...

2019-12-10 20:50:11 717

原创 kafka用eclipse实现发送接收消息

kafka用eclipse实现发出接受maven项目结构：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cCF66R4P-1575974134037)(C:\Users\chaye\AppData\Roaming\Typora\typora-user-images\1575973326400.png)]pom.xml<project xmlns="...

2019-12-10 18:36:10 399

原创 javaJsoup爬取LOL英雄联盟全皮肤

javaJsoup爬取LOL英雄联盟全皮肤配置maven <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.2</version> </dependen...

2019-12-10 14:51:26 594

原创倒计时删除指定的session

倒计时删除指定的session直接上代码首先存入session：request.getSession().setAttribute("user", loginUser); 调用方法：removeAttrbute(request.getSession(), "user"); 方法代码：public void removeAttrbute(HttpSession sessi...

2019-12-09 11:14:45 199

原创学习java生成一个简单的EXCEL表格

学习java生成一个EXCEL表格导入maven依赖  <dependency> <groupId>org.apache.poi</groupId> <artifac...

2019-12-08 20:11:28 366

qq_44426756的博客