初试数据分析(R)

本文介绍了如何使用R语言对朝阳区医院2016年的销售数据进行处理,包括数据导入、清洗、列名重命名、删除缺失值、日期处理、数据类型转换和数据排序。通过分析,得出月均消费次数、月均消费金额、客单价等关键指标,并绘制了消费趋势图。
摘要由CSDN通过智能技术生成

这篇的文章主要目的是,根据提供的朝阳区医院2016年销售数据.xlsx数据表,得出月均消费次数、月均消费金额、客单价和消费趋势这五个结论。

阅读路线:

  • 数据导入
  • 数据清洗
  • 数据分析
数据导入

为了方便,我把excel文件另存为了csv文件,并且重命名为2016.csv,然后放在Desktop文件夹下。

设置工作路径

>setwd("C:\\Users\\lkx\\Desktop")

查看下到底是不是这个工作路径

>getwd()
[1] "C:/Users/lkx/Desktop"   #确实是的

利用read.table()读入csv文件

> import.csv<-read.table("2016.csv",header = TRUE,sep=",")
 # 其中"2016.csv"就是我们要读入的文件;header=TRUE表示读入变量(就是我们excel中见到的表头);sep=","表示以逗号为分隔符

我们读取前六行先简单看一下数据

> head(import.csv)
           购药时间    社保卡号 商品编码   商品名称 销售数量 应收金额 实收金额
1 2016-01-01 星期五     1616528   236701 三九感冒灵        7      196   182.00
2 2016-01-02 星期六     1616528   236701 三九感冒灵        3       84    84.00
3 2016-01-06 星期三 10070343428   236701 三九感冒灵        3       84    73.92
4 2016-01-11 星期一    13389528   236701 三九感冒灵        1       28    28.00
5 2016-01-15 星期五   101554328   236701 三九感冒灵        8      224   208.00
6 2016-01-20 星期三    13389528   236701 三九感冒灵        1       28    28.00

其实我们读入的数据共有6577行,7列

如果点击上图中箭头所指向的位置就能够看到所有的数据:

数据处理

当我们拿到数据的时候不应该着急去计算,先观察数据,看数据是否规整、是否符合我们的需要。根据我们的分析要求将做五个方面的修整:列名重命名、删除缺失数据、处理日期、数据类型转换和数据排序

  • 列名重命名

把列名汉语名称变为英文状态下的名称将会编程环境更加适合。这里我们通过names()函数来重命名变量。

>names(import.csv)<- c("time","cardno","drugld","drugName","saleNumber","virtualmoney","actualmoney")
  • 删除缺失数据

在任何规模的项目中,数据都可能

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值