R语言大体概括。

一.数据分析所具备的知识和技能?
1.计算机基础  2.数学和统计知识  3.业务相关的


二.数据科学家的分类
1.数据开发  2.数据检测分析    3.数据挖掘  4.数据商人


三.完整的数据分析流程
1.定义研究问题,定义理性的数据集,确定能够获取什么数据,获取数据,清理数据
2.探索性分析(数据可视化),统计分析、建模(机器学习)等
3.解释/交流的结果(数据可视化),挑战结果(有没有其他的可能?)
  书写报告(reproduccible原则)
假设驱动:是对于事实来假设
数据驱动:提出一写假设,再去分析

四.数据基础

观测 :例如是MySQL里的一条数据,也就是具体的数。     
变量 :例如是MySQL里的一个字段   
变量的类型可分为:数值(连续,离散)可以进行加减乘除,求平均等运算    和    分类(无序,有序)取值空间有限,不能进行运算两种
变量之间的关系(对应不同的可视化方法和统计分析方法)
两个数值之间
........
........
数值变量
数据集中趋势的测量(均数,中位数,众数)
均值:是指平均数
中位数:是指排序后正中间的一个数,如果是偶数的话就是两个中间数的平均值
众数:出现次数最多的数


数据的分散趋势的测试(值域,方差,标准差,四方位距)
数据矩阵:整块的数据


数据可视化:
一个数值的变量:柱状图,点图,箱图
另个熟知的变量:散点图
分类变量
一个分类变量:频率表,条形表
两个分类变量:关联表,相对频率表,分段条形表,相对频率分段条形表,马赛克表
一个分类变量,一个数值变量:并排箱图
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值