基础学习
m0_38093796
这个作者很懒,什么都没留下…
展开
-
hive常用日期及转换
hive 常用日期格式转换固定日期转换成时间戳select unix_timestamp(‘2016-08-16’,‘yyyy-MM-dd’) --1471276800select unix_timestamp(‘20160816’,‘yyyyMMdd’) --1471276800select unix_timestamp(‘2016-08-16T10:02:41Z’, “yyyy-MM-dd’T’HH:mm:ss’Z’”) --147131296116/Mar/2017:12:25:01 +08原创 2021-09-28 17:59:46 · 890 阅读 · 0 评论 -
Jupyter notebook快捷键
Jupyter notebook快捷键1、命令状态下快捷键按键 功能Enter 进入当前编辑模式shift+enter 运行当前cell并选中下一个cellctrl + enter 运行当前cellalt + enter 运行当前cell并在下方插入新cellY 单元转入代码状态M 单元转入 markdown 状态R 单元转入 raw 状态1 设定 1 级标题 仅在 ma...原创 2020-04-07 17:28:44 · 186 阅读 · 0 评论 -
data.table X[Y] 与 merge
首先举一个例子library(data.table)X <- data.table(t = 1:4, a = (1:4)^2) setkey(X, t)X# t a# 1: 1 1# 2: 2 4# 3: 3 9# 4: 4 16Y <- data.table(t = 3:6, b = (3:6)^2)setkey(Y, t)Y# t ...原创 2019-01-12 17:30:43 · 160 阅读 · 0 评论 -
常用数据处理功能
#2019-2-2#常见功能整理dt <- data.table(mtcars)#返回dt的最后一条记录dt[.N]#----------==============#根据cyl分组,返回每个分组的记录数dt[, list(total=.N), by = cyl] #可以修改列名-------------#返回第一行记录dt[, .SD[1]] #-------...转载 2019-02-02 18:01:19 · 583 阅读 · 0 评论 -
分层抽样
用R语言进行分层抽样library(sampling)strata(data, stratanames=NULL, size, method=c(“srswor”,“srswr”,“poisson”,“systematic”), pik,description=FALSE)数据:| 分层 | 个数||-1-|-12|| 2 | 15 ||-3-|-25-||4 |34 |...原创 2019-05-21 17:14:25 · 1346 阅读 · 0 评论 -
引用语义
上一篇的介绍,所有操作都产生了一个新的数据集,下面主要学习如何添加新的列,更新或删除列。 “:=”的使用 LHS := RHS表格DT[, c("colA", "colB", ...) := list(valA, valB, ...)] ---当只有一列的时候,就可以不用list(),即DT[, colA := valA] 功能表格DT[, `:=`(colA = va...翻译 2018-12-31 14:19:00 · 233 阅读 · 0 评论 -
Key(主键)和基于子集的快速检索
主键什么是主键 在前面我们讨论了如何用“i”进行提取子集的方法,这节我们采用另一种方法,用主键(key)来提取子集。开始,我们先看一个data.frame,每个data.frame都有一个行名称,先看下面一个data.frame DF :> set.seed(1L)> DF = data.frame(ID1 = sample(letters[1:2], 10, T...翻译 2018-12-31 14:20:32 · 616 阅读 · 0 评论 -
二级索引和自动索引
1.二级指标a.什么是二级指标?二级指标类似于key在data.table中的作用,但是两者主要有如下差别: 它不会对整个data.table进行排序,而是只对当列排序,并将此列存储在属性中index指标中。 data.table中可以有多个二级指标b.设置和得到二级指标> setindex(flights, origin)> head(flights)[,-c(...翻译 2018-12-31 14:21:52 · 339 阅读 · 0 评论 -
长表和宽表的相互转化
使用 函数melt()和decast(),是reshape2包中函数的增强先考虑传统长宽表转化函数, 1.默认函数a.融合data.table(宽表到长表)考虑如下data.table:> DT = fread("melt_default.csv")> DT family_id age_mother dob_child1 dob_child2 dob_c...翻译 2018-12-31 14:23:22 · 2816 阅读 · 0 评论 -
经常问的问题
1.关于样本集的复制 > DT <- data.table(a=c(1,2), b=c(11,12))> DT2<-DT #用<-复制数据 集,新数据集改变后,原数据集会跟着一起改变> DT2[,new3:=3L]> DT2 a b new31: 1 11 32: 2 12 3 > ...翻译 2018-12-31 14:24:31 · 935 阅读 · 0 评论 -
Duplicated 与unique
>DT <- data.table(A = rep(1:3, each=4), B = rep(1:4, each=3),+ C = rep(1:2, 6), key = "A,B")> DT A B C 1: 1 1 1 2: 1 1 2 3: 1 1 1 4: 1 2 2 5: 2 2 1 6: 2 2 2 7: ...翻译 2018-12-31 14:26:45 · 918 阅读 · 0 评论