R语言 随机抽取训练集、验证集,缺失值插补 人口学特征表 ggplot2添加文字注释 分组计算统计描述 变量因子化 数据框添加新的列

本文介绍了使用R语言进行数据处理的一些常用操作,包括数据批量筛选、变量因子化、分组统计描述、ggplot2图形添加文字注释、随机抽样获取训练集和验证集,以及生成人口学特征表。同时,文章还涉及了如何处理缺失值和数据框的生成。
摘要由CSDN通过智能技术生成

本文章内包含日常学习和工作中收集的代码,接下来我也会不断的补充,有需要的小伙伴自取。

1. 数据批量筛选

fData = data[data$brand%in%c("GREE","Erie","Huawei"),]
#抽取商品标题包含关键词“平板”的商品数据记录
fData = data[grepl('Huawei',data$title),]
#组合提取
fData = data[
  (data$comments>=1000)
  &(data$comments<=10000)
  &(data$brand =='Huawei'),
]

 2.变量因子化

my_da[,age_cut:=cut(age,breaks = c(0,5,15,20,25,30,35,40,45,50,55,60,65,70,75,80),
right = F,include.lowest = T)]

3.分组统计描述

summary.stat.char <- function(data=NULL, measurevar, groupvars=NULL, na.rm=TRUE,
                              conf.interva
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无视小神仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值