java 海量数据频率_海量数据集中数值变量的相对频率直方图

我有 14e^06 elements 的数字变量 "myvariable" ,我想绘制一个直方图来显示每个bin的相对频率 .

考虑以下示例数据:

set.seed(1234)

wdata = data.frame(

sex = factor(rep(c("F", "M"), each=200)),

weight = c(rnorm(200, 55), rnorm(200, 58)))

我们可以绘制正常频率直方图:

require(ggplot2)

ggplot(wdata, aes(x = weight)) +

geom_histogram(aes(color = sex))

或者我们可以绘制 histogram of the relative frequency

require(ggplot2)

ggplot(wdata, aes(x = weight)) +

geom_histogram(aes(y = (..count..)/sum(..count..)))

现在,考虑我的真实数据:

temp

+ 218L, 4609L, 2173L, 5691L, 39296L)

myvariable

require(ggplot2)

mydf

ggplot(mydf, aes(x = myvariable)) +

geom_histogram(aes(y = (..count..)/sum(..count..)))

绘制相对频率直方图的过程变得无限慢,因此,唯一的选择是使用geom_density进行绘图,但这不是我需要的 .

我的问题是:

你能建议我一个更好的方法来获得我的数字变量的相对频率直方图吗?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值