数学之路(2)-数据分析-R基础(7)

本博客所有内容是原创,未经书面许可,严禁任何形式的转载。

http://blog.csdn.net/u010255642

 

向量的元素由逻辑型值组成,逻辑型的值有TRUE(可缩写成T)FALSE(可缩写成F)NA(即无效),可使用>>=,==!=等逻辑操作符,and操作用&or操作用|,逻辑非使用!

C(12,33,51)->x

> x

[1] 12 33 51

> x>20->y

> y

[1] FALSE  TRUE  TRUE

> x>=12->y

> y

[1] TRUE TRUE TRUE

> x>=12&x<30->y

> y

[1]  TRUE FALSE FALSE

> x>=12|x<30->y

> y

[1] TRUE TRUE TRUE

> !(x>=12&x<30)->y
> y
[1] FALSE  TRUE  TRUE
>

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《从零进阶!数据分析的统计基础-1.数据分析概述 ⽬录 第⼀章 第⼀章 数据分析概述 数据分析概述 1.什么是数据分析 什么是数据分析 1.⽐较常见的答案:数据分析就是分析数据,从⼀⼤堆数据中提取到你想要的信息 2.⽐较专业的答案:数据分析是由针对性的收集、加⼯、整理数据,并采⽤统计、挖掘技术分析和解释数据的科学和艺术 3.⽐较客观的答案:基于某种⾏业⽬的,有⽬的地进⾏收集、整理、加⼯和分析数据,提炼信息的⼀个过程 2.数据分析的六个步骤 数据分析的六个步骤 1.明确分析⽬的和内容 明确分析⽬的和内容 在进⾏数据分析之前,数据分析师应对需要分析的项⽬进⾏详细的了解,数据分析的对象是谁?数据分析的商业⽬的是什么?最后的结 果要解决什么样的业务问题? 2.数据收集 数据收集 按照确定的数据分析和框架内容,有⽬的地收集、整合相关数据。常⽤⽅法有观察法、访谈法、问卷法、测验法等 3.数据处理 数据处理 第⼀步:数据审查 检查数据的数量是否满⾜要求,字段值的内容是否与研究⽬的的要求⼀致等 第⼆步:数据清洗 针对数据审查中发现的错误值、缺失值、异常值、可疑数据,选⽤适当的⽅法进⾏清洗 第三步:数据转换 不同字段值由于计量单位等不同,往往造成数据不可⽐,需要在分析前对数据进⾏变换,包括⽆量纲化处理、线性变换、汇总和聚集、 适度概化、规范化、以及属性构造等 第四步:数据验证 初步评估和判断数据是否满⾜统计分析的需要,从⽽决定是否需要增加或减少数据量。利⽤简单的线性模型及散点图、直⽅图等进⾏探 索,利⽤相关性分析、⼀致性检验等⽅法对数据的准确性进⾏验证 4.数据分析 数据分析 数据分析是指通过分析⼿段、⽅法⾦额技巧对准备好的数据进⾏探索、分析。从中发现因果关系、内部联系和业务规律,为商业⽬的提 供决策参考。 5.数据展现 数据展现 ⼀般情况下,数据分析的结果都是通过图、表的⽅式来呈现的,常⽤的图表包括饼形图、折线图、柱形图/条形图、散点图、雷达图、 ⾦字塔图、矩阵图、漏⽃图、帕累托图等。 6.报告撰写 报告撰写 最后阶段,撰写数据分析报告,对整个数据分析结果的⼀个呈现。⼀份好的数据分析报告,⾸先需要有⼀个好的分析框架,并且图⽂并 茂,层次明晰,能够让读者⼀⽬了然。 3.数据分析⽅法简介 数据分析⽅法简介 数据分析⽅法分为两张,⼀个是统计分析⽅法,另⼀个是数据挖掘⽅法 统计分析⽅法 统计分析⽅法 1.描述性统计分析 描述性统计分析是通过图表或者数学⽅法,对数据资料进⾏整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进⾏估 计和描述的⽅法。分为集中趋势分析、离中趋势分析和相关分析三⼤部分。 集中趋势分析主要靠平均数、中数、众数等统计指标来表⽰数据的集中趋势。 离中趋势分析主要靠全距、四分差、平均差、⽅差、标准差等统计指标来研究数据的离中趋势。 相关分析是研究现象之间是否存在某种依存关系,并对具体由依存关系的现象进⾏其相关⽅向及相关程度的研究。这种关系既包括两个 数据之间的单⼀相关关系(年龄与个⼈领域),也包括多个数据之间的多重相关关系(年龄、抑郁症发⽣率和个⼈领域空间),既包括直线 相关,也可以是复杂相关,还包括两变量共同变化的紧密程度--相关系数。 2.回归分析 回归分析是确定两个及以上变量之间相互依赖的定量关系的⼀种统计分析⽅法,设计⾃变量的多少,可以分为⼀元回归分析和多元回归 分析,按照⾃变量和因变量之间的关系类型,可以分为线性回归和⾮线性回归。此处所讲的回归分析是指⼀元线性回归,区别于数据挖掘⽅ 法⾥的多元线性回归和逻辑斯蒂回归。 3.关联分析 ⼜称"对应分析"、"R-Q型因⼦分析",通过分析由定性变量构成的交互汇总表来揭⽰变量之间的联系。可以揭⽰同⼀个变量的各个类别 之间的差异,以及不同变量各个类别之间的对应关系。对应分析的⼀个基本思想是将⼀个联列表的⾏和列中各元素的⽐例结构以点的形式在 较低维的空间中表⽰出来。 4.因⼦分析 因⼦分析是指研究从变量群中提取共性因⼦的统计技术。就是从⼤的数据中寻找内在的联系,减轻决策困难的分析⽅法。如重⼼法、影 像分析法、最⼤似然解法、最⼩平⽅法、阿尔法抽因法、拉奥典型抽因法、PCA等,⼤部分以相关系数矩阵为基础。 5.⽅差分析 ⼜称"变异系数分析"、"F检验",是R.A.Fisher发明的分析⽅法,⽤于两个及两个以上样本均数差别的显著性检验。由于各种因素的影 响,研究得到的数据呈现波动状,造成波动的原因可分为两类,⼀个是不可控的随机因素,另⼀个是研究中施加的对结果形成影响的可控因 素。⽅差分析从观测变量的⽅差⼊⼿,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。 数据挖掘⽅法 数据挖掘⽅法 1.聚类分析 聚类分析是指将物理或抽象对象的集合分组称为由类似的对象组成的多个类的分析过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值