自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

建林之前不许成精

学习要好好做笔记

  • 博客(19)
  • 收藏
  • 关注

原创 【R】特征工程 - 缺失值&异常值处理

前言 缺失值or异常值的处理是特征工程中最常见的问题。缺失值的存在使得常用的分析与算法受阻。异常值的存在会扰乱统计分析与机器学习的结果,使得模型更偏向于对异常值的过拟合,失...

2020-03-05 13:30:41 4930 7

原创 【R】特征工程 - 数据降维 应对“维度灾难”

前言相信很多人在实际生产的过程中遇到过“维度灾难”,数据的变量/维度过多,随着维数的增加,计算量呈指数倍增长。并且,稀疏性对于任何要求有统计学意义的方法而言都是一个问题。...

2020-03-04 14:36:37 669

原创 【R】特征工程 - 数据探索函数汇总

前言在进行数据分析前,我们需要将收集到的数据质量进行探索。质量在这里其实是质与量。数据的行列信息、缺失值、集中趋势、离散程度、分布密度、相关性、异常值等。 R有很多包可以完...

2020-03-03 18:19:42 787

转载 【R】假设检验 - A/B Test差异检验实践

前言 本文章主要分享ABtest结果数据的差异检验的R语言实现。先叨叨一下ABtest的实验重点:企业在进行ABtest标准流程落地的过程中,主要考虑3个方面;...

2020-03-02 16:02:02 2582

转载 【R】dplyr进阶 - 窗口函数(排名、迁移、聚合、分布)

前言 dplyr中的窗口函数主要分为4类:排名、迁移、聚合、分布每一类的熟练掌握都可以使大家在实际的生产中提高效率100%+如果有忘记dplyr及其拓展包的用法,可...

2020-02-26 22:34:51 1111

转载 【R】dtplyr - 史上最速:dplyr与data.table共舞

前言 dtplyr的功能是实现用dplyr语句调用data.table函数操作数据集。 github 项目地址:https://github.com/tidy...

2020-02-25 16:48:26 1400

原创 【R】dbplyr - 数据库底层操作 SQL代码转译

dbplyr数据库底层操作 & SQL代码转译前言dbplyr相比R语言中传统数据库操作的优势:可使用dplyr语句操作数据库中的表可直接将dplyr语句转换为SQL语句基于数据...

2020-02-24 09:17:47 1057

原创 【R】dplyr - 数据处理瑞士军刀

前言 dplyr作为R中必学工具包之一,其对数据的行、列处理,抽样,分组,新增,排序,筛选等操作;加之其配合上管道函数与tibble类数据框,使dplyr在语法上简洁易懂,效率上也...

2020-02-24 09:17:47 229

原创 【R】stringr - 玩转字符串 by 数据框

前言这篇文章中,我们汇总了stringr包对数据框内的字符串的各种操作,其中包括:存在检测;字符提取;更改替换;分列&合并。stringr官方文档多是以向量对象为...

2020-02-24 09:17:47 1283 4

原创 【R】magrittr - 4种管道操作符活用教程

1什么是管道操作?举个栗子#以R自带的iris数据为例pacman::p_load(tidyverse, magrittr)data<-iris#顺序写法data<...

2020-02-21 10:31:03 504

转载 【R】tidyr & purrr - 数据重塑与变量循环,帮助你提高数据清洗效率

前言 tidyr - 用于数据集的长宽表转换、分列等形状重塑(reshape) purrr -实现了对变量数据的快速循环,让我们可以在对数据集内列变量进行循环时摒弃缓慢的f...

2020-02-19 15:37:19 254

转载 dplyr - 数据处理瑞士军刀

前言 dplyr作为R中必学工具包之一,其对数据的行、列处理,抽样,分组,新增,排序,筛选等操作;加之其配合上管道函数与tibble类数据框,使dplyr在语法上简洁易懂,效率上也...

2020-02-18 11:29:34 239

原创 dbplyr - 数据库底层操作 SQL代码转译

dbplyr数据库底层操作 & SQL代码转译前言dbplyr相比R语言中传统数据库操作的优势:可使用dplyr语句操作数据库中的表可直接将dplyr语句转换为SQL语句基于数据...

2020-02-17 14:28:32 667

原创 R语言 - 混淆矩阵 - 分类器诊断

#混淆矩阵(confusion matrix)是一种特别定的表格布局,可以可视化分类器的性能 预测分类 阳性 阴性 阳性 真阳性(TP) 伪阳性(FN)实际分类 阴性 伪阴性(FP) 真阴性(TN)#利用100个实例...

2018-02-23 23:29:54 8211

原创 R语言 - 朴素贝叶斯

#加载e1071包&gt; library(e1071)#将sample.csv里的数据定义为变量sample,导入标签行,分隔符为,&gt; sample &lt;- read.table("sample.csv", header = TRUE, sep = ",")#将训练数据(1:14)和测试数据(15)分为两个数据帧&gt; traindata &lt;- as.data.frame(sa...

2018-02-23 13:05:43 974

原创 R语言 - 决策树

#将DTdata.csv中的数据带入play_decision变量中,有header,分隔符为,&gt; play_decision &lt;- read.table("DTdata.csv",header = TRUE,sep = ",")#查看数据&gt; play_decision Play Outlook Temperature Humidity Wind1 yes ra...

2018-02-22 15:17:03 1329

原创 R语言 - 逻辑回归

&gt; library(ggplot2)#设置随机种子为1&gt; set.seed(1)#将整数1,2,3分别定义为变量b0,b1,b2&gt; b0 &lt;- 1 ; b1 &lt;- 2 ; b2 &lt;- 3#产生1000个服从正态分布的随机数分别定义为变量x1,x2&gt; x1 &lt;- rnorm(1000) ; x2 &lt;- rnorm(1000)#将以上产生的b0,b...

2018-02-21 14:35:37 3288

原创 R语言 - 关联规则

&gt; library(arules)&gt; library(arulesViz)#提取数据Groceries&gt; data(Groceries)#观察数据Groceries全貌&gt; summary(Groceries)#运行apriori算法关联规则自动收敛,起始项集数设置为1,最小支持度阈值设置为0.001,最小置信度为0.6,要挖掘关联类型的目标为"rules"&gt; rule...

2018-02-20 14:23:21 864

原创 R语言 - K均值聚类

&gt; library(plyr)&gt; library(ggplot2)&gt; library(cluster)&gt; library(lattice)&gt; library(graphics)&gt; library(grid)&gt; library(gridExtra)&gt; library(cluster)#加载cluster包中ruspini数据&gt;data(ruspi...

2018-02-20 14:09:39 5204 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除