自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 hive数据倾斜的原因和解决方法

数据倾斜如何处理

2022-06-05 16:37:34 1644

转载 统计学_卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方检验分为拟合度的卡方检验和卡方独立性检验。在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。例子:电商中消费者的性别和购买生鲜(独立性检验)我们要观察性别和在线上买不买生鲜食品有没有关系,现实生活中,女性通常去菜市场买菜的比较多,那么在线上是不是也这样。

2022-06-02 16:11:15 1414

原创 统计学知识记录

统计学知识一直理解不到位,学习总结,如不足之处还请留言指正。1、如何理解置信度α(比如95%)和置信区间?置信区间是我们所计算出的变量存在的范围,置信度就是我们对于这个数值存在于我们计算出的这个范围的可信程度。举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里。那么在这里,95%是置信度,而计算出的范围,就是置信区间。如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。2、如何理解p值?在原假

2022-05-31 14:56:11 221

原创 思维题:赛马问题

面试遇到的问题。25匹马5个赛道,每个赛道每次只能跑一匹马,问需要跑几次,能求出跑得最快的三匹马。只知道相对速度,不知道绝对速度。1、首先每5匹马分一组,跑5次,每次选出跑的最快的3匹马。2、然后,每次跑的最快的马,跑1次,得到顺序A1,B1,C1,D1,E1,此时得到第一名3、然后,将可能是第二三名的马,A1所在组的A2、A3,B1所在的组的B2,还有B1、C1 ,即A2、A3、B2、B1、C1 ,5匹马跑一次,得到第二名和第三名。...

2022-04-11 17:23:41 1076

原创 sql降序取第2-5行

面试遇到的题目,写row_number写多了,忘记了limit也可以实现。limit x,y 含义是从第x个开始,取y个数字,sql也是从0开始计数,所以取2-5行,要用limit 1,4实例:表中存储了整型字段num(40,35,36,37,45,41),按num降序排列,去除2-5行select *from medium_dataorder by num desc limit 1,4...

2022-04-09 10:32:11 1159

原创 sql求中位数

sql求中位数

2022-04-09 09:56:41 10447

原创 hive sql 高级函数

窗口函数 over([partition by col_1] [order by col_2] [窗口选取语句] )窗口选取语句:rows unbounded preceding 当前行至第一行rows x following/preceding 当前行到当前行往后/前x行rows between x preceding and y following 从前x到后y行rows between unbounded preceding and unbounded following 从第一行

2022-03-25 22:42:44 3293

转载 python plot函数

1、线形图Series和DataFrame都有一个用于生成各类图表的plot方法。默认情况下,它们所生成的是线型图(如下图所示):In [1]: from pandas import Series,DataFrameIn [2]: import numpy as npIn [3]: s=Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))In [4]: s.plot()该Series对象的索引会被传给matp

2021-09-08 22:27:21 9105

转载 pandas的describe参数

DataFrame.describe(percentiles=None,include=None,exclude=None)其物理意义在于观察这一系列数据的范围、大小、波动趋势等等,便于判断后续对数据采取哪类模型更合适。import pandas as pdimport numpy as npdates=pd.date_range('20200101',periods=7)datesdf = pd.DataFrame(np.random.randn(7,5),index=dates,c..

2021-09-07 15:13:03 1068

转载 hive sql 正则表达式

今天来说一下hive中的正则表达式,主要包含:元字符匹配、位置匹配、频率匹配1、元字符匹配(.) 表示匹配除换行符以外的任意字符。(\w) 表示匹配字母、下划线、数字 (\W匹配汉字)(\d) 表示匹配数字(\s) 表示匹配任意的空白符(tab 换行 空格)([ ]) 表示匹配方括号中任一字符([^匹配内容]) 表示不匹配方括号中任一字符2、位置匹配(^) 表示匹配字符串的开始,空值:^$($) 表示匹配字符串的结束(\b) 表示匹配单词的开始或结束。(..

2021-08-24 22:47:52 4548

原创 sql复杂场景:求连续在线天数

有一张在线日志表,记录了用户每天是否在线的情况,求最近连续在线天数及最长连续在线天数。数据如下:user_id date is_online 11 2022/1/1 1 11 2022/1/2 1 11 2022/1/3 1 11 2022/1/4 0 11 2022/1/5 0 11 2022/1/6 1 12 2022/2/3 1 12 2022/2/4 1

2021-08-24 22:29:53 811 2

原创 sql复杂场景:求一天内网站的最大在线人数

这个问题在不同的业务场景下有不同的意义,比如一个游戏的同时在线人数,比如一个服务器的实时并发数,比如一个仓库的货物积压数量等等。我们先抛开sql,来考虑实时计算中我们怎么处理该问题。是不是我们会实时记录着一个变量online_cnt,当一个用户登录时加1,用户下线时减1?再假如我让你用python离线处理这个问题你会怎么做。应该先把登录时间和登出时间这两列打散成行,然后进行排序,最后一行行读入,当读到一个登录时间时online_cnt加1,读到登出时间时online_cnt减1。回到sql,我们

2021-08-24 15:57:39 526

转载 pandas中的merge

本篇详细说明merge的应用,join 和concatenate的拼接方法的与之相似。pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=No...

2021-08-21 13:41:05 480

转载 Pandas中的resample重采样函数

Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start',kind=None, loffset=None, limit=None, base=0)参数详解是:参数 说明 freq 表示重采样频率,例如‘

2021-08-16 20:25:27 2989

转载 python中zip函数的用法

zip函数的原型为:zip([iterable, …])参数iterable为可迭代的对象,并且可以有多个参数。该函数返回一个以元组为元素的列表,其中第 i 个元组包含每个参数序列的第 i 个元素。返回的列表长度被截断为最短的参数序列的长度。只有一个序列参数时,它返回一个1元组的列表。没有参数时,它返回一个空的列表。例子:import numpy as npa=[1,2,3,4,5]b=(1,2,3,4,5)c=np.arange(5)d="zhang"zz=zip(a,b,c,d)

2021-08-16 17:29:15 483

转载 python中数组、向量、矩阵的区别

1 import numpy as np 2 3 ''' 4 数组:一维,秩为1 5 利用Numpy中random模块中的randn函数生成的一维数组, 6 既不是行向量,也不是列向量,而是秩为1的数组, 7 特点: 8 只有一个'[]' 9 是数组,不是向量或矩阵 10 ''' 11 a = np.random.randn(5) 12 print(a) 13 #[ 2.50110276 1.161...

2021-08-16 11:14:35 929 1

转载 np.random.randn()、np.random.rand()、np.random.randint()的区别和用法

(1)np.random.randn()函数通过本函数可以返回一个或一组服从标准正态分布的随机样本值。语法:np.random.randn(d0,d1,d2……dn)1) 当函数括号内没有参数时,则返回一个浮点数;2)当函数括号内有一个参数时,则返回秩为1的数组,不能表示向量和矩阵;3)当函数括号内有两个及以上参数时,则返回对应维度的数组,能表示向量或矩阵;4)np.random.standard_normal()函数与np.random.randn()类似,但是np.rand...

2021-08-16 11:03:08 1982

原创 pandas的shift函数

shift函数是对数据进行移动的操作。DataFrame.shift(periods=1, freq=None, axis=0)periods:类型为int,表示移动的幅度,可以是正数,也可以是负数,默认值是1,1就表示移动一次,注意这里移动的都是数据,而索引是不移动的,移动之后没有对应值的,就赋值为NaN。freq: DateOffset, timedelta, or time rule string,可选参数,默认值为None,只适用于时间序列,如果这个参数存在,那么会按照参数值移动时间

2021-08-15 18:32:10 343

原创 Pandas中的map(), apply()和applymap()的区别

三者应用对象不同。1、map()map() 是一个Series的函数,DataFrame结构中没有map()。map()将一个自定义函数应用于Series结构中的每个元素(elements)。例子注:df.dtypes 查询各列数据类型。结合lambda表达式,用map来对列data1改成保留小数点后三位。data1字段变为字符串类型。此处用apply也可。用map把key1的a改成c,b改成d。匹配不到a和c的会转为NaN。2、apply()apply().

2021-08-15 17:13:30 183

原创 记录所思所想 更新

记录零碎的所思所想,也许对也许不对,希望有人指点,希望时间校验。1、总觉得科研类的工作是高尚的,只向着钱的工作是粗鄙的。虽然显得幼稚,但代表了我的价值观,向往做有价值的人。既然没选择科研,就不要再想了,参加到社会生产中也很有意义。工作中也需要科研的精神,做到再说吧。如果未来孩子想要科研,就积极支持。...

2021-08-04 17:05:41 75

转载 数据分析 — 用户粘性的两个计算指标(DAU/MAU和月人均活跃天数)

很多运营都了解DAU(日活跃用户数)和MAU(月活跃用户数)的重要性,但在某些情况下这两个数值本身并不能反映出太多问题,这个时候就要引用到【DAU/MAU】的概念,即【日活/月活】。用户粘性的两个计算指标:1、DAU/MAU ,用户粘性通常用DAU/MAU的公式来计算2、每月用户平均活跃天数,即月平均活跃天数,以上二者作用一致【对DAU/MAU做公式解释】DAU,即:Daily Active User日活跃用户数,MAU,即:Monthly Active User月活跃用户数..

2021-02-08 11:59:43 9673

原创 python shell 备忘

python#取本月today = datetime.datetime.now()today = today.strftime("%Y%m")#取上个月today = datetime.date.today()first = today.replace(day=1)last_month = first - datetime.timedelta(days=1)last_month = last_month.strftime("%Y%m"))使用:字符串拼接使用 t_data_sz..

2020-09-02 16:13:16 95

转载 leecode 121. 买卖股票的最佳时机

给定一个数组,它的第i 个元素是一支给定股票第 i 天的价格。如果你最多只允许完成一笔交易(即买入和卖出一支股票),设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例 1:输入: [7,1,5,3,6,4]输出: 5解释: 在第 2 天(股票价格 = 1)的时候买入,在第 5 天(股票价格 = 6)的时候卖出,最大利润 = 6-1 = 5 。 ...

2020-03-09 16:28:37 93

转载 leecode 面试题14- I. 剪绳子(动态规划)

给你一根长度为 n 的绳子,请把绳子剪成整数长度的 m 段(m、n都是整数,n>1并且m>1),每段绳子的长度记为 k[0],k[1]...k[m] 。请问 k[0]*k[1]*...*k[m] 可能的最大乘积是多少?例如,当绳子的长度是8时,我们把它剪成长度分别为2、3、3的三段,此时得到的最大乘积是18。示例 1:输入: 2输出: 1解释: 2 = 1 + 1, 1 ×...

2020-03-09 15:35:06 112

转载 leecode 面试题13. 机器人的运动范围

题目地上有一个m行n列的方格,从坐标 [0,0] 到坐标 [m-1,n-1] 。一个机器人从坐标 [0, 0] 的格子开始移动,它每次可以向左、右、上、下移动一格(不能移动到方格外),也不能进入行坐标和列坐标的数位之和大于k的格子。例如,当k为18时,机器人能够进入方格 [35, 37] ,因为3+5+3+7=18。但它不能进入方格 [35, 38],因为3+5+3+8=19。请问该机器人能够...

2020-03-08 22:12:16 129

原创 leecode 只出现一次的数字

给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。说明:你的算法应该具有线性时间复杂度。 你可以不使用额外空间来实现吗?示例 1:输入: [2,2,1]输出: 1示例2:输入: [4,1,2,1,2]输出: 4来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/s...

2020-02-17 11:32:31 101

原创 leecode 验证回文串

给定一个字符串,验证它是否是回文串,只考虑字母和数字字符,可以忽略字母的大小写。说明:本题中,我们将空字符串定义为有效的回文串。示例 1:输入: "A man, a plan, a canal: Panama"输出: true示例 2:输入: "race a car"输出: false来源:力扣(LeetCode)链接:https://leetcode-cn.co...

2020-02-17 10:53:21 100

原创 leecode 比较二叉树

给定两个二叉树,编写一个函数来检验它们是否相同。如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。示例1:输入: 1 1 / \ / \ 2 3 2 3 [1,2,3], [1,2,3]输出: true来源:力扣(LeetCode)链接:htt...

2020-02-16 20:28:08 101

原创 leecode 合并两个有序数组

给定两个有序整数数组nums1 和 nums2,将 nums2 合并到nums1中,使得num1 成为一个有序数组。说明:初始化nums1 和 nums2 的元素数量分别为m 和 n。你可以假设nums1有足够的空间(空间大小大于或等于m + n)来保存 nums2 中的元素。示例:输入:nums1 = [1,2,3,0,0,0], m = 3nums2 = ...

2020-02-16 20:26:47 102

原创 leecode 爬楼梯

假设你正在爬楼梯。需要 n阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢?注意:给定 n 是一个正整数。示例 1:输入: 2输出: 2解释: 有两种方法可以爬到楼顶。1. 1 阶 + 1 阶2. 2 阶示例 2:输入: 3输出: 3解释: 有三种方法可以爬到楼顶。1. 1 阶 + 1 阶 + 1 阶2. 1 阶...

2020-02-13 22:55:00 137

原创 leecode x的平方根

实现int sqrt(int x)函数。计算并返回x的平方根,其中x 是非负整数。由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去。示例 1:输入: 4输出: 2示例 2:输入: 8输出: 2说明: 8 的平方根是 2.82842..., 由于返回类型是整数,小数部分将被舍去来源:力扣(LeetCode)链接:https://lee...

2020-02-13 22:34:33 94

转载 leecode 有效的括号

题目:给定一个只包括 '(',')','{','}','[',']'的字符串,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。示例 1:输入: "()"输出: true示例2:输入: "()[]{}"输出: true示例3:输入: "(]"输出: false示例...

2020-01-14 22:57:08 137

原创 leecode 最长公共前缀

题目编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串""。示例1:输入: ["flower","flow","flight"]输出: "fl"示例2:输入: ["dog","racecar","car"]输出: ""解释: 输入不存在公共前缀。说明:所有输入只包含小写字母a-z。来源:力扣(LeetCode)链接:ht...

2020-01-13 22:43:22 221

原创 2019年最后一天

2019年12月31日,猪年,二十世纪十年代最后一天。在家里的第五天,没有宠物玩,看了山楂树之恋,和婆婆逛超市,平淡朴实。带着一身刺度过2019,加过了至今最多的班,终于在年末得以解放。也有时间可以思考接下来想做什么,能做点什么。没有资本和勇气视金钱如粪土,但也不想一辈子围绕着人民币过活。所以这一步选择就比较重要。实践出真知,希望2019不要停留在思考上,坚持做想做想看的。有人说,一个人每...

2019-12-31 18:16:40 171 1

原创 leecode towsum题目

给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]来源:力扣(...

2019-12-30 21:10:30 87

转载 hadoop mapreduce 过程解析及hive参数优化

一、hadoop mapreduce 过程理解(1)分片(split)操作该部分不属于map和reduce的主要过程,但是是整个计算框架比较消耗时间的一部分,为map做数据准备。split只是将源文件的内容分片形成一系列的 InputSplit,每个 InputSpilt 中存储着对应分片的数据信息(例如,文件块信息、起始位置、数据长度、所在节点列表…),每个InputS...

2019-05-15 20:11:42 950

原创 R 画箱线图

data<-read.csv("cdr15.csv",header=T)library(ggplot2)library(reshape2)data_m=melt(data)# variable和value为矩阵melt后的两列的名字,内部变量, variable代表了点线的属性,value代表对应的值。#箱线图#p1<-ggplot(data_m,aes(x=variable,y=va

2018-01-03 15:47:44 1851

转载 linux中的find,whereis,which,type,locate命令

1. findfind是最常见和最强大的查找命令,你可以用它找到任何你想找的文件。find的使用格式如下:  $ find   - : 所要搜索的目录及其所有子目录。默认为当前目录。  - : 所要搜索的文件的特征。  - : 对搜索结果进行特定的处理。如果什么参数也不加,find默认搜索当前目录及其子目录,并且不过滤任何结果(也就是返回

2017-12-28 10:16:16 147

转载 .\configure && make && make install的原理

在Linux中利用源码包安装软件最重要的就是要仔细阅读安装包当中的README  INSTALL两个说明文件,这两个文件会清楚的告诉你如何可以正确的完成这个软件的安装!make的原理是执行一个叫Makefile文件里的指令,make的基本用处是自动根据makefile里的指令来编译源文件。它还可以用来做比如安装软件,卸载软件等事情,但前提是作者在makefile里写了。make

2017-12-25 19:56:07 1029

转载 安装gcc的步骤

在CentOS(版本是4.8)进行了手动安装 gcc 4.5.0,在安装的过程中遇到不少问题,下面具体说一下我的安装过程。 首先在配置gcc的过程中会出现错误:gcc configure: error: Building GCC requires GMP 4.2+, MPFR 2.3.1+ and MPC 0.8.0+ 说明要安装gcc需要GMP、MPFR、MPC这三个库,可从ftp://gc

2017-12-25 17:12:50 760

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除