自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 spark sql map类型转换 map<string,float> 转成 map<int,float>

【代码】spark sql map类型转换 map<string,float> 转成 map<int,float>

2023-10-10 09:54:15 259

原创 Hive sql随机读取数据抽样数据

普通的随机筛选100条数据select *from xxxorder by rand()limit 100每个用户筛选几条数据select *from ( select *, row_number() over(partition by mid order by rand() ) as rn from xxx ) awhere

2021-10-12 15:10:40 732

原创 HIVE SQL分位数percentile使用方法案例

percentile:percentile(col, p) col是要计算的列(值必须为int类型),p的取值为0-1,若为0.2,那么就是2分位数,依次类推。percentile_approx:percentile_approx(col, p)。列为数值类型都可以。percentile_approx还有一种形式percentile_approx(col, p,B),参数B控制内存消耗的近似精度,B越大,结果的精度越高。默认值为10000。当col字段中的distinct值的个数小于B时,结果就为准

2021-09-10 11:29:32 5596

原创 Spark性能优化调优根据Spark UI进行调优记录

SPARK-SQL优化三剑客:1内存2并发3CPU1、内存: spark的dirver和executor内存及对应spark作业参数涉及内存调优就三个参数:spark.driver.memory ,-executor-memory 和 spark.yarn.executor.memoryOverhead2、并发:提高有shuffle(join, group by 等等数据混洗的场景)及对应业务逻辑SQL参数涉及并发优化就1个参数:spark.sql.shuffle.partitions3、CPU:

2021-08-26 16:57:11 1884 1

原创 ClickHouse设计思想

Hbase的核心思想设计1、内存 + 磁盘:保证处理效率,也保证数据安全2、内存:必须经过设计,内存具备优秀的数据结构,保证基本的读写高效,甚至为了不同的需求,可以让读写效率倾斜。3、磁盘:数据必须存放在磁盘,保证数据安全。磁盘数据文件必须经过精心设计,保证扫描磁盘数据文件的高效率4、数据排序:在海量数据中要想保证低延时的随机读写操作,数据最好是排序的5、范围分区:当数据排序之后,可以进行范围分区,来平摊负载,让多台服务器联合起来对外提供服务6、跳表:基于数据排序+范围分区构建索引表,形成跳表的

2021-06-25 15:21:38 156

原创 Flink_SQL Interval Join

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_stream_join2 { public static void main(Str

2021-06-23 16:04:15 554

原创 Flink_SQL双流常规关联join

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_stream_join { public static void main(Stri

2021-06-18 17:40:28 645 1

原创 Flink_SQL关联维表

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_join { public static void main(String[] ar

2021-06-18 15:08:50 892

原创 Flink_SQL时间窗口聚合数据

package com.ygy.gmall.realtime.test3;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;public class Flink_SQL_groupby { public static void main(String[]

2021-06-18 14:36:14 680

原创 iceberg+Spark3.0-sql测试

在Iceberg官方下载页面(http://iceberg.apache.org/releases/)1、用的是spark3.0最新的,下载对应的jar包,放到spark的jars目录下2、在spark-defaults.conf添加默认参数spark.sql.catalog.hive_prod org.apache.iceberg.spark.SparkCatalogspark.sql.catalog.hive_prod.type hivespark.sql.catalog.hive_p

2021-04-14 10:56:10 694 2

原创 hive一行两列转多行两列

今天在做业务的时候遇到一个一行转多行,并且关联的问题。记录一下‘a,b,c,d’,‘1,2,3,4’弄成a 1b 2c 3d 4可以通过炸裂+排序辅助SQL:select single_t1, single_t2from ( select row_number() over(PARTITION BY '1' ORDER BY '1' DESC) as j, single_t1

2021-02-04 18:17:07 238

原创 Python获取知乎热榜信息用钉钉freFeedCardMsg消息展示

import requests # 导入requests包import jsonimport timefrom bs4 import BeautifulSoup# 知乎URLurl = 'https://www.zhihu.com/billboard'headers = {"User-Agent": "", "Cookie": ""}# 获取知乎热榜数据def get_hot_zhihu(): res = requests.get(url, headers=headers

2021-01-07 14:42:07 380

原创 元数据管理之Atlas

元数据管理之Atlas学生表:​create table student(id string comment '学号',name string comment '姓名',sex string comment '性别',age string comment '年龄',class_id int comment '班级ID') comment '学生表';插入数据insert into student values('2','小明','男','13','2');insert into s

2020-06-25 21:10:24 1326

原创 Flink自定义Source

package com.ygy.testimport org.apache.flink.streaming.api.functions.source.SourceFunctionimport org.apache.flink.streaming.api.scala._object TestFlink04 { def main(args: Array[String]): Unit = { //环境 val env: StreamExecutionEnvironment = Str

2020-05-09 15:48:42 141

原创 使用mr将hbase数据存入mysql中

这个是mr程序package com.ygy.mr.test;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.io.Immutable

2020-05-08 19:14:55 209

原创 Flink接受kafka发送的消息

HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2个region。在此过程中,会产生两个问题:1.数据往一个region上写,会有写热点问题。2.region split会消耗宝贵...

2020-05-08 10:01:18 224

原创 用java操作Hbase api

package com.ygy.demo;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import java.io.IOException;public class test1 { publ...

2020-05-08 08:52:32 133

原创 ClassLoader获取文件配置值

package com.ygy.test;import java.io.IOException;import java.io.InputStream;import java.util.Properties;public class demo1 { public static void main(String[] args) throws IOException { ...

2020-05-08 08:39:22 111

原创 Spark中的宽依赖和窄依赖

先看图片判断宽窄依赖的根本:父类分区内的数据,会被子类RDD中的指定的唯一一个分区所消费。如果是,那么就是窄依赖,如果不是则为宽依赖那么我想了想如果使用repartition和coalesce那么是怎么样呢。具体的实现:package com.ygy.sparkTestimport org.apache.spark.rdd.RDDimport org.apache.spark.{S...

2020-05-05 20:25:11 148

原创 CentOS 7字符界面安装教程(图文详解)

2020-04-17 12:04:57 1176 1

转载 JSTL标签库介绍

JSTL标签库介绍学习链接https://www.cnblogs.com/xdp-gacl/p/3943390.html

2019-12-21 11:31:02 72

原创 javaJsoup爬取网站文章生成文件保存在本地

javaJsoup爬取网站文章生成文件保存在本地前言:​ 导入jar包,这是目标链接https://www.iyiou.com/kcjiedu/1.html,它是有分页的,所以根据分页网址的变化生成分页对应的网址,爬取下载内容到本地磁盘maven: <dependency> <groupId>org.jsoup</groupId> &lt...

2019-12-10 20:50:11 635

原创 kafka用eclipse实现发送接收消息

kafka用eclipse实现发出接受maven项目结构:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cCF66R4P-1575974134037)(C:\Users\chaye\AppData\Roaming\Typora\typora-user-images\1575973326400.png)]pom.xml​<project xmlns="...

2019-12-10 18:36:10 343

原创 javaJsoup爬取LOL英雄联盟全皮肤

javaJsoup爬取LOL英雄联盟全皮肤配置maven <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.2</version> </dependen...

2019-12-10 14:51:26 471

原创 倒计时删除指定的session

倒计时删除指定的session直接上代码​ 首先存入session:request.getSession().setAttribute("user", loginUser);​ 调用方法:removeAttrbute(request.getSession(), "user");​ 方法代码:public void removeAttrbute(HttpSession sessi...

2019-12-09 11:14:45 164

原创 学习java生成一个简单的EXCEL表格

学习java生成一个EXCEL表格导入maven依赖​ <!-- excel https://mvnrepository.com/artifact/org.apache.poi/poi --> <dependency> <groupId>org.apache.poi</groupId> <artifac...

2019-12-08 20:11:28 302

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除