- 博客(19)
- 收藏
- 关注
原创 【R】特征工程 - 缺失值&异常值处理
前言 缺失值or异常值的处理是特征工程中最常见的问题。缺失值的存在使得常用的分析与算法受阻。异常值的存在会扰乱统计分析与机器学习的结果,使得模型更偏向于对异常值的过拟合,失...
2020-03-05 13:30:41 4930 7
原创 【R】特征工程 - 数据降维 应对“维度灾难”
前言相信很多人在实际生产的过程中遇到过“维度灾难”,数据的变量/维度过多,随着维数的增加,计算量呈指数倍增长。并且,稀疏性对于任何要求有统计学意义的方法而言都是一个问题。...
2020-03-04 14:36:37 669
原创 【R】特征工程 - 数据探索函数汇总
前言在进行数据分析前,我们需要将收集到的数据质量进行探索。质量在这里其实是质与量。数据的行列信息、缺失值、集中趋势、离散程度、分布密度、相关性、异常值等。 R有很多包可以完...
2020-03-03 18:19:42 787
转载 【R】假设检验 - A/B Test差异检验实践
前言 本文章主要分享ABtest结果数据的差异检验的R语言实现。先叨叨一下ABtest的实验重点:企业在进行ABtest标准流程落地的过程中,主要考虑3个方面;...
2020-03-02 16:02:02 2582
转载 【R】dplyr进阶 - 窗口函数(排名、迁移、聚合、分布)
前言 dplyr中的窗口函数主要分为4类:排名、迁移、聚合、分布每一类的熟练掌握都可以使大家在实际的生产中提高效率100%+如果有忘记dplyr及其拓展包的用法,可...
2020-02-26 22:34:51 1111
转载 【R】dtplyr - 史上最速:dplyr与data.table共舞
前言 dtplyr的功能是实现用dplyr语句调用data.table函数操作数据集。 github 项目地址:https://github.com/tidy...
2020-02-25 16:48:26 1400
原创 【R】dbplyr - 数据库底层操作 SQL代码转译
dbplyr数据库底层操作 & SQL代码转译前言dbplyr相比R语言中传统数据库操作的优势:可使用dplyr语句操作数据库中的表可直接将dplyr语句转换为SQL语句基于数据...
2020-02-24 09:17:47 1057
原创 【R】dplyr - 数据处理瑞士军刀
前言 dplyr作为R中必学工具包之一,其对数据的行、列处理,抽样,分组,新增,排序,筛选等操作;加之其配合上管道函数与tibble类数据框,使dplyr在语法上简洁易懂,效率上也...
2020-02-24 09:17:47 229
原创 【R】stringr - 玩转字符串 by 数据框
前言这篇文章中,我们汇总了stringr包对数据框内的字符串的各种操作,其中包括:存在检测;字符提取;更改替换;分列&合并。stringr官方文档多是以向量对象为...
2020-02-24 09:17:47 1283 4
原创 【R】magrittr - 4种管道操作符活用教程
1什么是管道操作?举个栗子#以R自带的iris数据为例pacman::p_load(tidyverse, magrittr)data<-iris#顺序写法data<...
2020-02-21 10:31:03 504
转载 【R】tidyr & purrr - 数据重塑与变量循环,帮助你提高数据清洗效率
前言 tidyr - 用于数据集的长宽表转换、分列等形状重塑(reshape) purrr -实现了对变量数据的快速循环,让我们可以在对数据集内列变量进行循环时摒弃缓慢的f...
2020-02-19 15:37:19 254
转载 dplyr - 数据处理瑞士军刀
前言 dplyr作为R中必学工具包之一,其对数据的行、列处理,抽样,分组,新增,排序,筛选等操作;加之其配合上管道函数与tibble类数据框,使dplyr在语法上简洁易懂,效率上也...
2020-02-18 11:29:34 239
原创 dbplyr - 数据库底层操作 SQL代码转译
dbplyr数据库底层操作 & SQL代码转译前言dbplyr相比R语言中传统数据库操作的优势:可使用dplyr语句操作数据库中的表可直接将dplyr语句转换为SQL语句基于数据...
2020-02-17 14:28:32 667
原创 R语言 - 混淆矩阵 - 分类器诊断
#混淆矩阵(confusion matrix)是一种特别定的表格布局,可以可视化分类器的性能 预测分类 阳性 阴性 阳性 真阳性(TP) 伪阳性(FN)实际分类 阴性 伪阴性(FP) 真阴性(TN)#利用100个实例...
2018-02-23 23:29:54 8211
原创 R语言 - 朴素贝叶斯
#加载e1071包> library(e1071)#将sample.csv里的数据定义为变量sample,导入标签行,分隔符为,> sample <- read.table("sample.csv", header = TRUE, sep = ",")#将训练数据(1:14)和测试数据(15)分为两个数据帧> traindata <- as.data.frame(sa...
2018-02-23 13:05:43 974
原创 R语言 - 决策树
#将DTdata.csv中的数据带入play_decision变量中,有header,分隔符为,> play_decision <- read.table("DTdata.csv",header = TRUE,sep = ",")#查看数据> play_decision Play Outlook Temperature Humidity Wind1 yes ra...
2018-02-22 15:17:03 1329
原创 R语言 - 逻辑回归
> library(ggplot2)#设置随机种子为1> set.seed(1)#将整数1,2,3分别定义为变量b0,b1,b2> b0 <- 1 ; b1 <- 2 ; b2 <- 3#产生1000个服从正态分布的随机数分别定义为变量x1,x2> x1 <- rnorm(1000) ; x2 <- rnorm(1000)#将以上产生的b0,b...
2018-02-21 14:35:37 3288
原创 R语言 - 关联规则
> library(arules)> library(arulesViz)#提取数据Groceries> data(Groceries)#观察数据Groceries全貌> summary(Groceries)#运行apriori算法关联规则自动收敛,起始项集数设置为1,最小支持度阈值设置为0.001,最小置信度为0.6,要挖掘关联类型的目标为"rules"> rule...
2018-02-20 14:23:21 864
原创 R语言 - K均值聚类
> library(plyr)> library(ggplot2)> library(cluster)> library(lattice)> library(graphics)> library(grid)> library(gridExtra)> library(cluster)#加载cluster包中ruspini数据>data(ruspi...
2018-02-20 14:09:39 5204 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人