不爱吃鱼的馋猫
码龄7年
关注
提问 私信
  • 博客:100,821
    100,821
    总访问量
  • 63
    原创
  • 205,416
    排名
  • 65
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-07-17
博客简介:

不爱吃鱼的馋猫

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    188
    当月
    0
个人成就
  • 获得76次点赞
  • 内容获得38次评论
  • 获得264次收藏
  • 代码片获得111次分享
创作历程
  • 1篇
    2024年
  • 3篇
    2023年
  • 1篇
    2022年
  • 6篇
    2021年
  • 55篇
    2020年
成就勋章
TA的专栏
  • hive
    1篇
  • 博客
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

AB实验求置信区间和p值

为了计算AB两组数据的置信区间和p值,我们首先需要确定要使用的统计检验。由于我们有两组独立样本(实验组和对照组),并且想要比较它们的均值是否有显著差异,我们通常使用两独立样本t检验(也称为双样本t检验)。做AB实验,实验组的数值分别为:0.70, 0.697, 0.693, 0.694, 0.726,对照组的0.711, 0.701, 0.695, 0.6956, 0.7287。此外,置信区间的计算是基于t分布的,它依赖于样本大小、自由度和选择的置信水平。在上述代码中,我们使用了95%的置信水平。
原创
发布博客 2024.05.15 ·
677 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Flink去重计数统计用户数

使用flink回撤流去重统计支付用户数
原创
发布博客 2023.12.26 ·
1268 阅读 ·
9 点赞 ·
0 评论 ·
8 收藏

春日旅游路线

西安、成都
原创
发布博客 2023.03.13 ·
663 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive学习笔记

hive SQL
原创
发布博客 2023.02.17 ·
697 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

hive posexplode炸裂函数

hive posexplode炸裂函数
原创
发布博客 2022.12.19 ·
397 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mybatis-01

mybatis-01mybatis概述1.1、mybatis简介MyBatis 是支持定制化 SQL、存储过程以及高级映射的优秀的持久层框架。MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集。MyBatis可以使用简单的XML或注解用于配置和原始映射,将接口和Java的POJO(Plain Old Java Objects,普通的Java对象)映射成数据库中的记录.1.2、mybatis历史原是apache的一个开源项目iBati
原创
发布博客 2021.07.19 ·
1108 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive中如何判断字符串是否是数字

1. 通过 nvl函数实现判断字符串是否是数字SELECT nvl('1.x'+0,null) is not null; falseSELECT nvl('1'+0,null) is not null; true2. 通过正则匹配判断select '123456' rlike '^\d+$' ; true ;select '123456a' rlike '^\d+$' ; false;...
原创
发布博客 2021.02.19 ·
11346 阅读 ·
3 点赞 ·
0 评论 ·
11 收藏

窗口函数

1 窗口函数1)定义窗口函数属于sql中比较高级的函数mysql从8.0版本才支持窗口函数oracle 里面一直支持窗口函数hive也支持窗口函数以下函数才是窗口函数窗口函数:LEAD LEAD(col,n, default_val):往后第n行数据 col 列名 n 往后第几行 默认为1 默认值 默认nullLAG LAG(col,n,default_val):往前第n行数据 col 列名 n 往前第几行 默认为1 默认值 默认nullFIRST_VALU
原创
发布博客 2021.01.26 ·
345 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink-4

第1章 DWS层与DWM层的设计1.1设计思路我们在之前通过分流等手段,把数据分拆成了独立的kafka topic。那么接下来如何处理数据,就要思考一下我们到底要通过实时计算出哪些指标项。因为实时计算与离线不同,实时计算的开发和运维成本都是非常高的,要结合实际情况考虑是否有必要象离线数仓一样,建一个大而全的中间层。如果没有必要大而全,这时候就需要大体规划一下要实时计算出的指标需求了。把这些指标以主题宽表的形式输出就是我们的DWS层。1.2 需求梳理 统计主题 ...
原创
发布博客 2021.01.14 ·
478 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

flink-3

实时数仓第1章 DWS层与DWM层的设计1.1 设计思路我们在之前通过分流等手段,把数据分拆成了独立的Kafka Topic。那么接下来如何处理数据,就要思考一下我们到底要通过实时计算出哪些指标项。因为实时计算与离线不同,实时计算的开发和运维成本都是非常高的,要结合实际情况考虑是否有必要象离线数仓一样,建一个大而全的中间层。如果没有必要大而全,这时候就需要大体规划一下要实时计算出的指标需求了。把这些指标以主题宽表的形式输出就是我们的DWS层。1.2 需求梳理 统计主题.
原创
发布博客 2021.01.14 ·
496 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

flink-2

实时数仓项目第1章 分层设计在之前介绍实时数仓概念时讨论过,建设实时数仓的目的。主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。每层的职能 分层 数据描述 生成计算工具 存储媒介 ODS 原始数据,日志和业务数据 日志服务器,maxwell kafka .
原创
发布博客 2021.01.12 ·
384 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Flink中的join实现原理

首先假如我们有两个Dataset,一个Dataset中的数据为用户信息,另一个Dataset中的数据是站点访问记录。case class PageVisit(url: String, ip: String, userId: Long)case class User(id: Long, name: String, email: String, country: String)如果想通过这两个Dataset获取来自中国用户的访问记录应该怎么做?很显然,把两个Dataset join一下然后根据cou
原创
发布博客 2020.12.19 ·
1596 阅读 ·
0 点赞 ·
2 评论 ·
3 收藏

Flink的非Barrier对齐可以优化高反压

问题导读1.Barrier 对齐会造成什么问题?目前的 Checkpoint 算法在大多数情况下运行良好,然而当作业出现反压时,阻塞式的 Barrier 对齐反而会加剧作业的反压,甚至导致作业的不稳定。2.Barrier 对齐是否会造成反压?3.如何理解Unaligned Checkpoint ?作为 Flink 最基础也是最关键的容错机制,Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是.
原创
发布博客 2020.12.18 ·
2841 阅读 ·
3 点赞 ·
2 评论 ·
9 收藏

拉链表回滚

拉链表dwd_userinfo_db,目前时间是2020-12-15,想回滚到2020-11-27,那么拉链表的状态得是2020-11-26userid starttime endtime1 2020-11-12 2020-11-261 2020-11-27 9999-99-992 2020-11-16 2020-12-13sql拉链表回滚:过滤starttime<=2020-11-26的数据,将endtime>=2020-11-26的修改为9999-99-9
原创
发布博客 2020.12.18 ·
832 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Flink不同版本的反压机制:逐级反压与动态反压

笔者最近回顾自己对Flink技术栈细节的理解,发现对Flink的网络栈、流控与反压这一套机制存在比较大的盲区。虽然平时多次处理过作业反压的问题,但是不完全理解背后的实现显然说不过去。于是专门写一篇总结,站在大佬们的肩膀上彻底搞清楚Flink是怎么做流控与处理反压的。▍Flink网络传输的数据流向Flink网络传输的数据流向如下图所示。Sender在发送数据时,首先写入TaskManager内部的网络缓存,利用Netty进行传输——将待发送的数据存入Netty的ChannelOutboundB
原创
发布博客 2020.12.12 ·
638 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Flink八种分区策略

什么要搞懂什么是分区策略。分区策略是用来决定数据如何发送至下游。目前 Flink 支持了8中分区策略的实现。GlobalPartitioner数据会被分发到下游算子的第一个实例中进行处理。ShufflePartitioner数据会被随机分发到下游算子的每一个实例中进行处理。RebalancePartitioner数据会被循环发送到下游的每一个实例中进行处理。RescalePartitioner这种分区器会根据上下游算子的并行度,循环的方式输出到下游算子的每个实例。这里有点难以理解,假设上游并...
原创
发布博客 2020.12.11 ·
3258 阅读 ·
3 点赞 ·
2 评论 ·
11 收藏

SparkStreaming的背压机制

Spark 1.5以前版本,用户如果要限制Receiver的数据接收速率,可以通过设置静态配制参数“spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如:producer数据生产高于maxRate,当前集群处理能力也高于maxRate,这就会造成资源利用率下降等问题。(注:当处理能力小于接收速率时,容易造成内存溢出,但是当大于限制的接收速率时,又会浪费性能优势)为了更好的协调数据接收速率与
原创
发布博客 2020.12.08 ·
1203 阅读 ·
1 点赞 ·
2 评论 ·
5 收藏

秒懂Flink反压机制

在说flink的反压之前,先来说下strom和spark streaming的反压。Strom 反压如图是strom的反压,是通过zookeeper来决定的,当strom感受到处理不过来的时候,就会像zookeeper增加一个znode,然后strom发现了这个znode,对应的上游数据就会阻塞,不会发送数据。Spark Streaming 反压Spark Streaming的反压是从1.5版本以后引入的。在这之前,基本就是通过控制最大接受速率来控制的。譬如,如果是基于Receiver形
原创
发布博客 2020.12.07 ·
1016 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Flink知识点或面试题

Flink 1 简单介绍一下 FlinkFlink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。DataStream API,对数据流进行流处理操作,将流式
原创
发布博客 2020.12.06 ·
1294 阅读 ·
1 点赞 ·
0 评论 ·
16 收藏

快速了解log4j 日志框架

快速了解log4j 日志框架log4j 是 apache 的一个开源项目, 通过 log4j, 可以控制日志信息输送的目的地是 console, file, GUI 组件, 甚至是套接口服务器, NT 的时间记录器等; 也可以控制每一条日志的输出格式; 还可以通过定义每一条日志信息的级别, 更加细致地控制日志生成发的过程.这些都可以通过一个配置文件来灵活地进行配置, 而不需要修改应用的代码.具体来说, 比如:日志监控打印, 在项目试运行期间需要记录用户所有的操作;添加新的内容, 比如时间和线程;
原创
发布博客 2020.12.03 ·
281 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多