使用R语言进行分类数据的统计分析

一、导入原始数据

原始数据:

日期销售城市产品类别销售员数量单价金额
1/1/2020广州纯棉口罩表姐616
1/1/2020武汉明星口罩王大刀3030900
1/1/2020深圳明星口罩王大刀23060
3/1/2020上海防雾霾口罩张盛茗63281764
4/1/2020武汉明星口罩张盛茗2530750
4/1/2020武汉防雾霾口罩表姐40281120
5/1/2020深圳明星口罩王大刀530150
5/1/2020上海N95口罩张盛茗71251775
5/1/2020上海纯棉口罩表姐60160
6/1/2020厦门明星口罩王大刀2730810
6/1/2020武汉医用口罩赵小平2323696
7/1/2020南昌医用口罩凌祯2133639
7/1/2020上海纯棉口罩表姐49149
8/1/2020厦门明星口罩凌祯630180
9/1/2020上海医用口罩张盛茗1633489
9/1/2020武汉纯棉口罩表姐46146
9/1/2020武汉N95口罩张盛茗2725675
10/1/2020北京N95口罩张盛茗2425600
10/1/2020杭州防雾霾口罩表姐82282296
10/1/2020南昌明星口罩王大刀2730810
11/1/2020厦门医用口罩凌祯963288
11/1/2020上海明星口罩赵小平3030900
11/1/2020杭州纯棉口罩表姐89189
12/1/2020杭州医用口罩凌祯2603780
13/1/2020上海医用口罩王大刀1453435
13/1/2020北京医用口罩凌祯38131143
14/1/2020杭州明星口罩张盛茗3230960
14/1/2020武汉明星口罩表姐35301050
14/1/2020杭州防雾霾口罩表姐51281428
15/1/2020武汉纯棉口罩表姐33133
17/1/2020厦门明星口罩表姐2230660
18/1/2020深圳明星口罩凌祯2630780
18/1/2020武汉明星口罩赵小平23060
19/1/2020武汉N95口罩张盛茗2925725
19/1/2020武汉医用口罩表姐37531125
20/1/2020武汉纯棉口罩张盛茗22122
20/1/2020北京医用口罩张盛茗513153
20/1/2020武汉医用口罩凌祯42131263
21/1/2020武汉防雾霾口罩赵小平49281372
21/1/2020北京N95口罩张盛茗91252275
22/1/2020北京纯棉口罩赵小平24124
22/1/2020武汉防雾霾口罩赵小平59281652
22/1/2020武汉医用口罩凌祯1813543
22/1/2020上海医用口罩王大刀1923576
23/1/2020杭州纯棉口罩赵小平66166
23/1/2020武汉医用口罩凌祯2553765
23/1/2020广州纯棉口罩凌祯111
23/1/2020杭州纯棉口罩表姐87187
24/1/2020上海N95口罩赵小平1525375
24/1/2020上海纯棉口罩凌祯20120
24/1/2020北京医用口罩赵小平39031170
24/1/2020武汉明星口罩赵小平1630480
25/1/2020南昌医用口罩王大刀40031200
25/1/2020杭州明星口罩王大刀23060
26/1/2020深圳N95口罩张盛茗71251775
27/1/2020厦门纯棉口罩赵小平29129
27/1/2020北京纯棉口罩张盛茗21121
27/1/2020上海明星口罩赵小平430120
27/1/2020北京N95口罩凌祯90252250
28/1/2020深圳纯棉口罩表姐99199
28/1/2020武汉N95口罩张盛茗100252500
29/1/2020武汉明星口罩凌祯2630780
29/1/2020武汉N95口罩张盛茗88252200
29/1/2020武汉N95口罩张盛茗42251050
30/1/2020南昌医用口罩表姐41631248
30/1/2020上海N95口罩赵小平1625400
30/1/2020广州医用口罩凌祯1373411
30/1/2020武汉医用口罩凌祯2683804
1/2/2020武汉医用口罩张盛茗1533459
1/2/2020深圳医用口罩凌祯40231206
1/2/2020北京医用口罩王大刀1323396
1/2/2020深圳N95口罩张盛茗83252075
1/2/2020武汉纯棉口罩赵小平36136
1/2/2020厦门N95口罩凌祯56251400
2/2/2020上海医用口罩凌祯1503450
2/2/2020深圳防雾霾口罩表姐3228896
3/2/2020杭州纯棉口罩表姐78178
4/2/2020杭州明星口罩王大刀34301020
4/2/2020武汉纯棉口罩表姐50150
4/2/2020深圳N95口罩张盛茗79251975
4/2/2020武汉纯棉口罩表姐616
5/2/2020武汉防雾霾口罩凌祯80282240
6/2/2020北京明星口罩凌祯730210
6/2/2020武汉N95口罩张盛茗93252325
6/2/2020北京防雾霾口罩赵小平928252
7/2/2020深圳纯棉口罩表姐46146
7/2/2020厦门纯棉口罩表姐44144
8/2/2020北京N95口罩赵小平22550
9/2/2020武汉医用口罩凌祯35831074
9/2/2020厦门纯棉口罩王大刀65165
9/2/2020广州明星口罩王大刀1730510
10/2/2020武汉防雾霾口罩凌祯2828784
10/2/2020武汉明星口罩王大刀1930570
11/2/2020杭州纯棉口罩凌祯85185
12/2/2020杭州医用口罩凌祯40831224
12/2/2020杭州纯棉口罩赵小平72172
12/2/2020武汉医用口罩凌祯553165
12/2/2020武汉明星口罩张盛茗730210
12/2/2020南昌明星口罩王大刀530150
12/2/2020武汉明星口罩王大刀2030600
13/2/2020深圳明星口罩表姐1230360
13/2/2020上海医用口罩凌祯1273381
13/2/2020厦门纯棉口罩表姐17117
14/2/2020上海纯棉口罩表姐53153
14/2/2020深圳医用口罩王大刀2913873
14/2/2020武汉明星口罩王大刀34301020
14/2/2020广州纯棉口罩表姐44144
15/2/2020北京明星口罩表姐1230360
15/2/2020北京纯棉口罩王大刀51151
15/2/2020深圳防雾霾口罩赵小平3228896
15/2/2020北京纯棉口罩赵小平51151
16/2/2020北京纯棉口罩表姐77177
16/2/2020厦门明星口罩张盛茗35301050
16/2/2020深圳N95口罩张盛茗2425600
16/2/2020杭州N95口罩表姐57251425
16/2/2020北京纯棉口罩王大刀52152
18/2/2020北京医用口罩张盛茗1563468
18/2/2020北京纯棉口罩赵小平414
18/2/2020南昌医用口罩王大刀2573771
18/2/2020武汉医用口罩凌祯1693507
19/2/2020厦门明星口罩王大刀2230660
19/2/2020上海医用口罩表姐793237
20/2/2020厦门医用口罩赵小平36631098
20/2/2020北京防雾霾口罩赵小平85282380
21/2/2020武汉医用口罩凌祯2863858
21/2/2020南昌纯棉口罩表姐34134
21/2/2020武汉防雾霾口罩赵小平65281820
21/2/2020厦门明星口罩王大刀35301050
22/2/2020上海明星口罩王大刀430120
22/2/2020北京防雾霾口罩赵小平1728476
22/2/2020北京纯棉口罩表姐45145
23/2/2020上海医用口罩表姐2363708
23/2/2020厦门医用口罩王大刀1883564
24/2/2020北京防雾霾口罩赵小平45281260
24/2/2020南昌医用口罩凌祯45231356
25/2/2020上海明星口罩张盛茗3130930
25/2/2020上海纯棉口罩表姐45145
26/2/2020北京明星口罩王大刀2530750
26/2/2020南昌N95口罩表姐2225550
26/2/2020武汉N95口罩赵小平2725675
27/2/2020武汉医用口罩凌祯46531395
27/2/2020武汉N95口罩王大刀52251300
28/2/2020武汉防雾霾口罩凌祯76282128
28/2/2020广州纯棉口罩表姐1001100
28/2/2020武汉纯棉口罩表姐56156
28/2/2020武汉明星口罩张盛茗830240

在此使用了把原始数据复制到剪贴板上方法再进行导入命令

df<-read.delim('clipboard')
df

运行得到:

日期 销售城市   产品类别 销售员 数量 单价 金额
1    1/1/2020     广州   纯棉口罩   表姐    6    1    6
2    1/1/2020     武汉   明星口罩 王大刀   30   30  900
3    1/1/2020     深圳   明星口罩 王大刀    2   30   60
4    3/1/2020     上海 防雾霾口罩 张盛茗   63   28 1764
5    4/1/2020     武汉   明星口罩 张盛茗   25   30  750
6    4/1/2020     武汉 防雾霾口罩   表姐   40   28 1120
7    5/1/2020     深圳   明星口罩 王大刀    5   30  150
8    5/1/2020     上海    N95口罩 张盛茗   71   25 1775

。。。。。。。。。

二、显示分类汇总数据

table(df$销售城市,df$销售员)

运行得到:
     表姐 凌祯 王大刀 张盛茗 赵小平
  北京    3    3      4      5      9
  广州    3    2      1      0      0
  杭州    6    3      2      1      2
  南昌    3    2      4      0      0
  厦门    3    3      5      1      2
  上海    6    3      3      4      4
  深圳    4    2      3      4      1
  武汉    8   13      5     11      8

这里得到的是每个销售的在各个城市的销售记录条数。

table(df$日期,df$销售员)
           
            表姐 凌祯 王大刀 张盛茗 赵小平
  1/1/2020     1    0      2      0      0
  1/2/2020     0    2      1      2      1
  10/1/2020    1    0      1      1      0
  10/2/2020    0    1      1      0      0
  11/1/2020    1    1      0      0      1
  11/2/2020    0    1      0      0      0
  12/1/2020    0    1      0      0      0
  12/2/2020    0    2      2      1      1
  13/1/2020    0    1      1      0      0
  13/2/2020    2    1      0      0      0
  14/1/2020    2    0      0      1      0
  14/2/2020    2    0      2      0      0
  15/1/2020    1    0      0      0      0
  15/2/2020    1    0      1      0      2
  16/2/2020    2    0      1      2      0
  17/1/2020    1    0      0      0      0
  18/1/2020    0    1      0      0      1
  18/2/2020    0    1      1      1      1
  19/1/2020    1    0      0      1      0
  19/2/2020    1    0      1      0      0
  2/2/2020     1    1      0      0      0
  20/1/2020    0    1      0      2      0
  20/2/2020    0    0      0      0      2
  21/1/2020    0    0      0      1      1
  21/2/2020    1    1      1      0      1
  22/1/2020    0    1      1      0      2
  22/2/2020    1    0      1      0      1
  23/1/2020    1    2      0      0      1
  23/2/2020    1    0      1      0      0
  24/1/2020    0    1      0      0      3
  24/2/2020    0    1      0      0      1
  25/1/2020    0    0      2      0      0
  25/2/2020    1    0      0      1      0
  26/1/2020    0    0      0      1      0
  26/2/2020    1    0      1      0      1
  27/1/2020    0    1      0      1      2
  27/2/2020    0    1      1      0      0
  28/1/2020    1    0      0      1      0
  28/2/2020    2    1      0      1      0
  29/1/2020    0    1      0      2      0
  3/1/2020     0    0      0      1      0
  3/2/2020     1    0      0      0      0
  30/1/2020    1    2      0      0      1
  4/1/2020     1    0      0      1      0
  4/2/2020     2    0      1      1      0
  5/1/2020     1    0      1      1      0
  5/2/2020     0    1      0      0      0
  6/1/2020     0    0      1      0      1
  6/2/2020     0    1      0      1      1
  7/1/2020     1    1      0      0      0
  7/2/2020     2    0      0      0      0
  8/1/2020     0    1      0      0      0
  8/2/2020     0    0      0      0      1
  9/1/2020     1    0      0      2      0
  9/2/2020     0    1      2      0      0
> 运行得到的是每个销售员在每天的销售记录条数。

三、对销售记录条数进行行列汇总

b<-table(df$销售城市,df$销售员)
margin.table(b,2)

运行得到:

表姐   凌祯 王大刀 张盛茗 赵小平 
    36     31     27     26     26 

运行得到上面的每个销售员在每个城市的销售记录条数的列汇总。

margin.table(b,1)

北京 广州 杭州 南昌 厦门 上海 深圳 武汉 
  24    6   14    9   14   20   14   45 

运行得到上面的每个销售员在每个城市的销售记录条数的行汇总。

sum(b)
[1] 146

得到了总的销售记录条数。

三、对每个数据按行求比率。

round(prop.table(b,1),digit=2)

  表姐 凌祯 王大刀 张盛茗 赵小平
  北京 0.12 0.12   0.17   0.21   0.38
  广州 0.50 0.33   0.17   0.00   0.00
  杭州 0.43 0.21   0.14   0.07   0.14
  南昌 0.33 0.22   0.44   0.00   0.00
  厦门 0.21 0.21   0.36   0.07   0.14
  上海 0.30 0.15   0.15   0.20   0.20
  深圳 0.29 0.14   0.21   0.29   0.07
  武汉 0.18 0.29   0.11   0.24   0.18

round(prop.table(b,2),digit=2)
      
       表姐 凌祯 王大刀 张盛茗 赵小平
  北京 0.08 0.10   0.15   0.19   0.35
  广州 0.08 0.06   0.04   0.00   0.00
  杭州 0.17 0.10   0.07   0.04   0.08
  南昌 0.08 0.06   0.15   0.00   0.00
  厦门 0.08 0.10   0.19   0.04   0.08
  上海 0.17 0.10   0.11   0.15   0.15
  深圳 0.11 0.06   0.11   0.15   0.04
  武汉 0.22 0.42   0.19   0.42   0.31

得到按列汇总数据求比率。

round(prop.table(b,2),digit=2)*100
      
       表姐 凌祯 王大刀 张盛茗 赵小平
  北京    8   10     15     19     35
  广州    8    6      4      0      0
  杭州   17   10      7      4      8
  南昌    8    6     15      0      0
  厦门    8   10     19      4      8
  上海   17   10     11     15     15
  深圳   11    6     11     15      4
  武汉   22   42     19     42     31

得到对表中每个数字乘以100后的结果。

round(b/sum(b),digits=2)
      
       表姐 凌祯 王大刀 张盛茗 赵小平
  北京 0.02 0.02   0.03   0.03   0.06
  广州 0.02 0.01   0.01   0.00   0.00
  杭州 0.04 0.02   0.01   0.01   0.01
  南昌 0.02 0.01   0.03   0.00   0.00
  厦门 0.02 0.02   0.03   0.01   0.01
  上海 0.04 0.02   0.02   0.03   0.03
  深圳 0.03 0.01   0.02   0.03   0.01
  武汉 0.05 0.09   0.03   0.08   0.05

得到了全局相对频率列联表数据。

四、列联表的图形描述

1、使用条形图

以销售员为X轴的分类变量绘制条形图,以销售城市为图例。

barplot(b,legend.text = attr(b,'dimnames')[[1]])

运行得到:

这是按行销售城市叠加,按列进行横轴排列的结果条形图,也可以列并列放。

设置beside=TRUE

barplot(b,beside = TRUE,legend.text = attr(b,'dimnames')[[1]])

运行得到:

五、绘制点图

dotchart(b)

运行得到:

  • 21
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值