数据分析
数据是事实,也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。
一、描述定性数据
1、图形法
Youxiangz.csv是2010年全国就业调查情况表:
行业代码,行业名称,平均劳动报酬,平均教育经费
10000,农林牧渔业,22475,143
10100,农业,17542,230
10300,畜牧业,27958,308
10310,牲畜的饲养,25636,196
20000,采矿业,43713,44
20800,黑色金属矿采选业,43895,42
...........................
..........................
我们读入文件
> read.table("I:/my_docs/youxiangz.csv",,header=TRUE,sep=",")->jiuye
分析一下2010年主要电子行业的劳动报酬水平。
先找出电子行业的数据
> jiuye$行业名称[grepl("电子",jiuye$行业名称)]->jyhy
> jiuye$平均劳动报酬[grepl("电子",jiuye$行业名称)]->jygz
> names(jygz)<-jyhy
绘制点图,可以清楚看到这7个电子行业中薪水分布情况,电子计算机制造是薪水最高的行业。
> dotchart(jygz)
常用的还有饼图和条形图
以中介行业为例
条形图:
> jiuye$平均劳动报酬[grepl("中介",jiuye$行业名称)]->jygz
> jiuye$行业名称[grepl("中介",jiuye$行业名称)]->jyhy
> names(jygz)<-jyhy
> barplot(jygz,horiz = TRUE)
>
饼图:
> pie(jygz)
>