【Udacity】3,3,3,频率多边形

频数多边形用来比较分布,优势就是比较两个或者多个分布
问题:男性和女性那个平均好友更多
1、friend_count分布直方图

qplot(x=friend_count,data = subset(pf,!is.na(gender)),binwidth=10)+
  scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50))

这里写图片描述
2、按性别分开

> qplot(x=friend_count,data = subset(pf,!is.na(gender)),binwidth=10)+
+   scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50))+
+   facet_wrap(~gender)

这里写图片描述
3、制作频数多边形
默认情况下,当qplot传递一个变量是,默认制作直方图,我们可以通过geom函数来改变制作的图形类型。
当创建不同的图形是,不在需要性别的逐面包裹,
在同一个图形上比较性别数据,需要将gender赋值给color

qplot(x=friend_count,data = subset(pf,!is.na(gender)),binwidth=10,geom='freqpoly',color=gender)+
  scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50))

这里写图片描述
4、以上图形仍然不能回答我们的问题,这里讲y轴进行更改,将数值改为比例

qplot(x=friend_count,y=..count../sum(..count..),
      data = subset(pf,!is.na(gender)),
      binwidth=10,geom='freqpoly',color=gender)+
  scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50))

这里写图片描述
等效的ggplot语法:

ggplot(aes(x = friend_count, y = ..count../sum(..count..)), data = subset(pf, !is.na(gender))) + 
  geom_freqpoly(aes(color = gender), binwidth=10) + 
  scale_x_continuous(limits = c(0, 1000), breaks = seq(0, 1000, 50)) + 
  xlab('好友数量') + 
  ylab('Percentage of users with that friend count')

请注意,sum(..count..) 将跨颜色进行总计,因此,显示的百分比是总用户数的百分比。要在每个组内绘制百分比,你可以尝试

y = ..density…
5、对于尾部的长尾数据我们可以使用log来进行比较

> qplot(x=friend_count,data = subset(pf,!is.na(gender)),
+       binwidth=10,geom='freqpoly',color=gender)+
+   scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50))+
+   scale_x_log10()

这里写图片描述
等效的ggplot代码:

ggplot(aes(x = www_likes), data = subset(pf, !is.na(gender))) + 
  geom_freqpoly(aes(color = gender)) + 
  scale_x_log10()

6、对比男性和女性在网页上点赞数的不同

qplot(x=www_likes,data = subset(pf,!is.na(gender)),
      geom='freqpoly',color=gender)+
  scale_x_continuous()+
  scale_x_log10()

这里写图片描述
这里为了不出现上面的箭头形状,去掉了binwidth参数。
第一个问题是:在整个数据集中,对于男性有多少个 www_likes?
第二个问题是:哪个性别的 www_likes 总数更多?

> table(pf$gender)

female   male 
 40254  58574 
> by(pf$www_likes,pf$gender,summary)
pf$gender: female
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
    0.00     0.00     0.00    87.14    25.00 14865.00 
------------------------------------------------------------------------------------------- 
pf$gender: male
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
    0.00     0.00     0.00    24.42     2.00 12903.00 
> by(pf$www_likes,pf$gender,sum)
pf$gender: female
[1] 3507665
------------------------------------------------------------------------------------------- 
pf$gender: male
[1] 1430175
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Udacity自动驾驶数据集是Udacity为其自动驾驶算法比赛专门准备的数据集。该数据集对连续视频图片进行了仔细的标注,主要包含了汽车、行人、大型车辆等类别。数据集的大小为1.5G,共有9420张图像。标注格式采用了2D坐标,包括了Car、Truck、Pedestrian三类。如果你需要使用该数据集,你可以通过下载dataset1来获取数据。同时,你可以使用数据格式转化工具将数据转化为voc格式,以便更好地进行处理和分析。\[2\]\[3\] #### 引用[.reference_title] - *1* [Udacity CH2 数据集解析小技巧](https://blog.csdn.net/weixin_44337149/article/details/118541085)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Udacity Self-Driving 目标检测数据集简介与使用](https://blog.csdn.net/Jesse_Mx/article/details/72599220)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Udacity Self-Driving自动驾驶目标检测数据集使用指南](https://blog.csdn.net/u010801994/article/details/85092375)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值