窗口函数解决连续类问题-淘宝店铺连续2天及以上购物的用户及其对应的天数 1. 题目描述某宝店铺连续2天及以上购物的用户及其对应的天数_牛客题霸_牛客网2. 解题思路‘连续’问题,如果不用自连接,可以选择使用窗口函数的排名功能:按照用户分区,按照日期排名,这样就可以给同一个人不同日期的记录编号了。比如本题中,我们可以得到'10, 2021-11-05, rank=1', '10, 2021-11-06, rank=2'。 接下来如果这个人的购买日期是连续的,那么上面得到的那个结果中【日期减排名】,会得到一样的日期值。比如上面那个例子,都会得到..
窗口函数业务场景应用-滴滴打车(各城市最大同时等车人数) 目录窗口函数是什么1. 语法2. 主要作用3. 类别4. 窗口函数的神奇之处各城市最大同时等车人数1. 题目要求2. 解题思路3. 最终代码窗口函数是什么这篇文章讲的太好了,全面且清晰,讲述窗口函数是什么:通俗易懂的学会:SQL窗口函数 - 知乎这里再在上述文章基础上总结一下:1. 语法<窗口函数> over (partition by <用于分组的列名> order by <用于排序的列名>)2. 主
Heterogeneous Treatment Effect 一些treatment对不同subgroup的effect是不一样的。我们需要相应地分层,比较CATE(conditional average treatment effect).。只有当不同subgroup得到的treatment effect的CI没有overlap,才能明确地得到结论,否则就要继续run几次实验。通过CI得到# Average Treatment Effectd_0 = df[df['expid'] == 0]['click']d_1 = df[df['expid'] =
Sanity Check: SRM, AA test Sanity Check是实验后第一件要做的事,来保证实验进行地正确(主要在randomization;internal validity方面)。主要由两方面组成:SRM(sample ratio mismatch)(保证randomization没问题),AAtest(保证和实验treatment无关的所有其他变量在各组之间应该是statistically indifferent的)。SRM我们实验前分配好了control组和treatment组的sample size,但实验后清洗完数据我们
Power analysis 和 Type II error(选取多大的sample size) 在这篇blog中(中心极限定理,Bootstrap CI_小白的博客-CSDN博客)我们简单讲了abtest中,尽力满足中心极限定理,因而需要满足的抽样的三个条件:large sample size;independent;mean difference。其中large sample size,我们只描述了要>=355*中心极限定理,Bootstrap CI_小白的博客-CSDN博客。在这基础上,sample size还需要进一步满足什么条件,才能得到真正有效力的结果呢?这就需要涉及对statist.
中心极限定理,Bootstrap CI 前两篇链接:t-test,z-test原理_小白的博客-CSDN博客;Multiple Testing 中的 Type I error(python代码实现)_小白的博客-CSDN博客中心极限定理&Hypothesis testing中心极限定理:The mean of a large number of independent observations of a random variable (e.g., Y1, Y0) is approximately a normal random
Leetcode curated SQL 刷题总结_1 最近做了Easy部分的32道题,简单总结一下:看书、做题、做完整项目是三回事;照着书敲代码、自己写完整代码又是两回事...基础当然要一步步打,但真的要多实践才行~1. Consecutive available seats:查询一个表中连续的数值 (自连接查询)自连接后,利用abs(id1-id2)=1筛选‘连续’,别忘记加distinct(自连接后会有很多重复行)。SELECT distinct a.seat_idFROM cinema a JOIN cinema bON .
Multiple Testing 中的 Type I error(python代码实现) 目录Type I ErrorT-tests与Type I errorConfidence Interval与Type I error针对type I error的改进措施Type I Error含义:认为treatment group和control group之间有显著不同,而实际上并没有。也叫做"false positive".T-tests与Type I errorMultiple testing: 想知道control group和treatment gr
理解Hadoop & Spark HadoopSpark1. Spark与Hadoop的关系2. Spark的特点3. Spark架构&工作流程名词解释运行过程补充Job,Stage,Task的关系DAG和RDD是什么RDD的相关操作(creation, transformation, action)开发者需要做哪部分工作Hadoop在大数据的背景下,我们需要分布式数据存储和处理的工具,来解决一些现实问题(如:基础设施崩溃(hardware broken/network failure
《SQL经典实例》:8. 变换展示方式,层次关系 目录变换结果集为一行&多列层次关系变换结果集为一行&多列想由左图变为右图这种展示方式: SELECT sum(CASE WHEN deptno = 10 THEN 1 ELSE 0 END) AS deptno_10,sum(CASE WHEN deptno = 20 THEN 1 ELSE 0 END) AS deptno_20,sum(CASE WHEN deptno = 30 THEN 1 ELSE 0 ...
《SQL经典实例》:7. 编号,分组 按照某标准排序并添加编号列按照姓名字母由小到大排序,并赋予编号SELECT x.ename, x.numFROM(SELECT ename,(SELECT count(*) FROM emp b WHERE b.ename <= a.ename) AS num FROM emp a)xORDER BY ename; 得到如下结果:按照工资又高到低排序,并赋予编号,(只展示前五位)SELECT x.ename, x.sal, x.num FROM(SELECT a
《SQL经典实例》:6. 区间操作 目录定位连续的值区间计算同一组或分区的行之间的差定位连续值区间的开始值和结束值定位连续的值区间想得到V5视图中(每一行的项目结束时间都等于后一行的项目开始时间的部分)(即“连续”的部分)create view V5 (PROJ_ID,PROJ_START,PROJ_END)asselect 1, '01-JAN-2005', '02-JAN-2005' from t1 union all select 2, '02-JAN-2005', '03-JAN-2005' fro
《SQL经典实例》:5. 多表连接查询 目录多表连接合并行Union all/union合并列:1. 全连接合并列:2. INNER JOIN合并列:3. LEFT JOIN合并列:4. RIGHTJOIN多于两个表的连接综合应用多表连接合并行Union all/unionSELECT 列表里的所有项目必须保持数目相同,且数据类型匹配(所以select T1时要加个null)SELECT ename AS ename_and_dname, deptnoFROM empWHE...
《SQL经典实例》:4. number及date相关函数 目录Number相关函数Group by+聚合函数累计求和累计乘积查找众数查找中位数Date相关函数datediff / intervalyear/month/daydate_add/adddatedate_formatlast_dayNumber相关函数Group by+聚合函数group by函数将拥有同等的某列值的记录summary成一行记录,和聚合函数(count, min, max, avg, sum等)一起使用; ...
《SQL经典实例》:2. sql语句执行顺序&常用基本函数及语句 目录sql语句执行顺序常用基本函数&常见语句case whenlike & regexpcoalescecountcast where exists/ where not exists/ where in/ where not inlimit & offsetsql语句执行顺序上面的最先执行常用基本函数&常见语句case whensql中的条件语句,类似于if-else:符合哪条when即返回对应的t...