数据分析(三)

//读书总结


数据准备内容:

1.认识数据的特点与要求,它是以字段和记录的形式存储在数据表中数据类型主要有字符型和数值型两大类。了解数据表的六点要求

2.熟悉几种数据来源,学习数据导入方法调查问卷常见的五种题型及录入格式


数据准备----理解数据 + 数据来源

做数据分析必须要有数据,从一开始的数据收集、数据处理、数据分析都离不开数据,也要有分析工具(这里选择Excel,后面的数据处理、分析相关的操作都用它完成)。


1.理解数据:构造、种类、要求-----要清楚的认识到数据分析对数据有什么要求。

(1)数据长什么模样-----字段和记录。

例:某学期学生考试成绩表

                                     

横向看,每一行都是同学的基本情况和成绩;从纵向看,每一列都描述了一类数据

从数据分析的角度看这样的成绩表,它是一个典型的数据库最上面的“姓名”、“性别”等为字段(表头),而每位同学的基本情况和成绩就构成了一条一条的数据记录(一行)。如下图:

                                              

从数据分析的角度理解字段和记录的概念:

数据需要由字段和记录共同组合而成。

· 字段:是事务或现象的某种特征。如成绩表中的“学号”、“姓名”等都是字段,在统计学中称为变量

· 记录:是事务或现象某种特征的具体表现。比如成绩单中的“性别”可以是男或女,“总分”可以是273或230等,记录也称为数据或变量值


(2)数据类型

最常用的数据类型有三类:数字、文字、日期,还有其他数据类型:时间、货币等。

· 查看有多少数据类型:Excel中单元格格式查看所有的数据类型。

步骤1.选择Excel中任意一个单元格,单击鼠标右键,选择“设置单元格格式”。

              2.在弹出的“设置单元格格式”对话框中,可以看到各种不同的数据类型,比如:数值、文字、日期、货币、会计专用、时间、百分比、分数、                  科学计数、特殊等。

                                        

Excel这么多数据类型,最终都可归结为两大类。

· 字符型数据:不具有计算能力的文字数据类型,包括中文字符、英文字符、数字字符(非数值型)等字符。

                            如,成绩表中的“姓名”、“性别”、“总分”三个变量均为字符型数据。

· 数值型数据:直接使用自然数或度量单位进行计量的数值数据。

                            如,成绩表中的“语文”、“数学”、“英语”三科成绩汇总即得到“总分”这个字段。

                            对于数值型数据,可直接用算术方法进行汇总和分析,这一点是区别数据是否属于数值型数据的重要依据。


(3)数据表----由字段、记录和数据类型构成的数据表

数据分析所需要的数据表,是有一定要求的。一张数据表的制作,可以侧面反映出制作者的数据沉淀及应用水平。

                       数据表的设计要求

            序号                                                 要求
1数据表由标题行和数据部分组成       
2第一行是表的列标题(字段名),列标题不能重复
3第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列
4数据表中不能有合并单元格存在
5数据表与其他数据之间应该留出至少一个空白行和空白列
6数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的,此时应将二维表转化为一维表的形式存储数据

· 一维表和二维表及有什么区别:

                                                

         看到:一维表的列标签是字段,而且表中每个指标就对应一个取值;而二维表的列标签是数据:2006年、2007年、2008年,                       将一维表中的所有年份真实值都放置在列标签里了。

·区分左边的二维表和右边的一维表的关键:

         “维”指的是分析数据的角度,2006年、2007年、2008年,从数据的角度来说,应该都是“年份”的范畴,是描述            各省GDP的一个因素,若要换成一维表,则应该使用同一个字段,将年份单独作为列标签。


将二维表转化为一维表的操作如何利用数据透视表进行二维表到一维表的转换

 转换过程要用到数据透视表的“数据透视表和数据透视向导”功能,采用“添加功能选项”方式,把其添加至选项卡。

二维表转换为一维表的具体操作

添加“数据透视表和数据透视图向导”功能【文件】-->【选项】-->【自定义功能区】-->在“从下列位置选择命令”中选择“不在功能区中的命令”,找到“数据透视表和数据透视图向导”,选中它,在【自定义功能区】选择【主选项卡】-->【数据】选项卡下-->添加【新建组】,选中-->【添加】按钮,即可把“数据透视表和数据透视图向导”添加到“数据”主选项卡的“新建组”中。

出现图标:

单击①刚添加好的“数据透视表和数据透视图向导”图标,弹出对话框,在数据源类型中选中“多重合并计算数据区域”-->【下一步】                      

   数据透视表和数据透视图向导 Step1     

使用快捷方式打开“数据透视表和数据透视图向导”:快捷键“Alt+D+P”----先按“Alt+D”,然后松开,再按“P”,即可打开“数据透视表和数据透视图向导”对话框。

选中“创建单页字段”-->【下一步】

   数据透视表和数据透视图向导 Step2a 

在“选定区域”项中选择整个二维表的数据区域“二维表!$A$1:$D$6”-->【添加】按钮-->【下一步】

   数据透视表和数据透视图向导 Step2b  

在“数据透视表显示位置”选择“新建工作表”项-->【完成】。即可完成数据透视表的创建。

   数据透视表和数据透视图向导 Step3  

得到初步完成的数据透视表

                                               

在“数据透视表字段列表”窗格中,取消对“选择要添加到报表的字段”列表中的“列”和“行”字段的勾选,即将“行”“列”前面的“√”去掉。

用鼠标拖动法,将列标签里的“列”及行标签里的“行” 拖回至“选择要添加到报表的字段”列表中,(如上图箭头所示)。

得到经过移除“行”“列”字段整理后的数据透视表:

双击上图的B4单元格(唯一的汇总数据),Excel会自动创建一个新工作表,并基于原二维表数据源生成新的一维表

得到由数据透视表生成的一维表:

直接双击“初步完成的数据透视表”中的最后一个单元格E10也能达到同样的效果,最后把数据表的列标题(字段名)改为相应的字段名即可。

【关于数据透视表的具体功能等在数据分析工具处再介绍。】


2.数据来源:从哪里来---如何获取数据

获取数据的方式分为两种:导入外部数据和自己录入数据

(1)导入数据----导入的外部数据最常见的两种来源:文本和网站数据来源

· 导入文本数据:如何把文本文件导入Excel

例:在员工满意度调查中我们有一份文本型的“问卷录入结果”文件,导入这份文件为例,实践一下导入文本数据的   具体操作:

鼠标单击“数据”选项卡-->选择“自文本”选项-->Excel会自动弹出相对应的对话框

找到保存的“问卷录入结果.txt”文件

,选项卡【文件】-->【打开】-->Excel会自动弹出对话框-->【文件类型】-->选择【文本文件】-->从要打开的文本文件所在位置打         开“问卷录入结果.txt”文件-->会弹出“文本导入向导”对话框。

文本导入向导---Step1:     

在上图Step1对话框中有两个选项“分隔符号”、“固定宽度”。如果文本文件中的列标签以制表符、冒号、分号、空格或其他字符分隔,则选择“分隔符号”;如果你想自己设定每列分隔的具体位置,则选择“固定宽度”

  由于我们的文本数据是以Tab键分隔的,所以这里选择“分隔符号”,单击【下一步】,得到下图对话框

文本导入向导---Step2 :      

在上图Step2对话框中,有Tab键、分号、逗号、空格的分隔符可供选择,如果分隔符是其他字符,则选中“其他”复选框,然后在后面的文本框中输入字符。

这里,我们选择“Tab键”-->【下一步】-->弹出如下对话框

文本数据导入向导---Step3:  

如果不需要将某列导入Excel中,可以在“数据预览”中选择此列-->勾选“不导入此列(跳过)”,则该列就不会输出在Excel文件里。

     这里,我们不需要删除某列,所以,选择“常规”即可-->【完成

弹出“导入数据”对话框,在其中选择存放数据的位置,单击【红框标注的按钮】,拖动或缩放单元格区域,再次单击【红框标注的按钮】恢复对话框-->【确定】

  导入文本数据:                   

⑦返回工作表,文本文件中的数据就会按所设置的格式自动导入到其中,如下图

   文本数据导入结果 :        

· 自动导入网站数据

Excel设置有“刷新控件”功能,即导入的网络数据可以进行即时更新,当网页数据发生变化时,不需要重新导入数据就能获得最新数据。

导入网站数据的具体步骤

单击【数据】选项卡-->选择【自网站】选项-->Excel会弹出“新建Web查询”对话框

在对话框地址栏输入要导入数据的网址,这里我们输入国家统计局“消费者信心指数(2010年9月)”数据的网址:http://www.stats.gov.cn./tjsj/jdsj/t20101105_402681367.htm,单击【转到】按钮,对话框中将显示相应的页面,单击【】按钮,使其图标变为【绿色对号】,在这里单击表格前面的图标。

           导入网站数据:          

单击【导入】按钮-->弹出“导入数据”对话框-->在工作表中选择需要放置数据的区域,这里我们选择默认位置A1-->【确定】-->网站中的数据将自动导入到Excel中,导入效果如下图

       网站数据导入结果:       

-->不用打开网页也能自动更新数据-->方式有三种:即时刷新、定时刷新、打开文件时自动刷新

· 即时刷新单击【数据】主选项卡-->【刷新数据】,或,选择导入的外部数据所在区域中的任意一个单元格,然后单击鼠标右键,选择【刷新】。

        即时刷新网站数据:       

· 定时刷新选择导入外部数据所在区域中的任意一个单元格-->鼠标右键(上图方法二)-->选择【数据范围属性】-->弹出“外部数据区域属性”对话框,如下图。在此对话框中勾选“刷新频率”复选框,选择刷新的间隔时间,就能实现定时刷新。

· 打开文件时自动刷新在弹出的“外部数据区域属性”对话框-->选择“打开文件时刷新数据”复选框,即能实现打开文件时数据自动刷新。

          外部数据区域属性:        

-->导入网站数据的另一种方法:

【Ctrl+C】,再【Ctrl+V】,直接将网页数据复制粘贴过来-->在工作表中粘贴数据后,数据区域的右下角会出现“粘贴”按钮,单击它,选择“可刷新的Web查询”命令,在弹出的对话框中进行相应设置即可。

          直接粘贴网站数据:        


(2)问卷录入要求-----手工录入,以问卷录入为例

经常接触到的调查问卷数据,其输入也是有讲究的。对于不同类型的问题,有不同的录入格式要求。

问卷题目大致可分为哪几类?怎样分辨这几种类型?每种类型采取怎样的录入格式?

以员工满意度调查为例,讲解每种题型。

公司员工满意度问卷示例

数值题上示例问卷第3题,数值题一般要求被调查者填入相应的数值、或者打分。

                      录入人员只需输入被调查者实际填入的数值即可。

单选题单选题的特征就是答案只能有一个选项,所以编码时只需定义一个变量,即给该题留一列进行数据的录入

                      录入时可采用1、2、3、4分别代表A、B、C、D四个选项。 

                     对于示例问卷中的第7题,只需在该份问卷的记录中对应第7题所在的位置录入1/2/3/4即可。

多选题多选题的特征是答案可以有多个选项,其中又分为:

                      项数不定多选(即,对所选择选项的数目不做限定);

                      项数限定多选(即,有“最多选**项”)。上例第25题就是对项数有限制。

多选题的录入有两种方式

· 二分法把每一个相应选项定义为一个变量,每一个变量值均做如下定义:“0”代表未选,“1”代表已选,即对于被调查者选中的选                      项录入为1,对未选的选项录入为0。

                     比如,示例问卷中被调查者选ACF,则A、B、C、D、E、F、G的选项下分别录入为1、0、1、0、0、1、0。

· 多重分类法事先定义录入的数值,比如1、2、3、4、5、6、7分别代表选项A、B、C、D、E、F、G,并且根据限选的项数确                               定应录入的变量个数。

                         例如,示例问卷第25题限选3项,那么需要设立3个变量,被调查者在该题选ACF,则在3个变量的值分别为1、3、6。

排序题对于排序题需要对选项重要性进行排序,如示例问卷第31题,总共6个选项,需要按重要程度排出前3名。

                       排序题的录入与多重分类法类似,先定义录入的数值,1、2、3、4、5、6分别代表选项A、B、C、D、E、F,然后按                          照被调查者填写的顺序录入选项。所以,对第31题,我们按顺序录入3、4、1。

开放性文字题一般放在问卷的末尾,需要被调查者自己填写一些文字表述观点或建议,如示例问卷第40题。

                                      对于开放性文字题,如果可能的话可以按照含义相似的答案进行归类编码,转换成为多选题进行分析

                                     ,如果答案内容较为丰富,就应对这类问题直接做定性分析

           问卷录入结果:          


下一节详细讲解数据处理的过程。









  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值