背景
- 作者:Mario F. Triola (Dutchess Community College)
- 统计学作为数据科学的基础知识
第一章 统计学概述
Question #1 YouTube正在成为重要的学习工具吗?
不同类别的人之间的差异,当与总体相比时,可能比较小
重要原则:
- 样本必须以适当的方式进行采集(比如需要随机抽样)A. 随机抽样的标准
- 如果采样方法不正确,那么所得的数据可能是无效的,所得的结果也可能是无效的
1-1 统计与批判性思维
- 统计学通过随机抽样得到数据样本,通过研究样本获得总体的状态(status)
- 获取数据的方法是随机抽样,随机抽样需要注意数据来源和抽样方法
- 幸存者偏差:抽样过程也许要经历一段时间,此过程中总体大小可能发生变化,需要考虑到
- 大样本未必比小样本好
- 统计分析:通过作图和应用统计方法
- 统计显著性:一旦超过某个统计指标,表示当前状态不可能是偶然发生的,说明该状态其实就是已经发生了
- 数据采集过程中有可能受到人为因素干扰,应尽可能避免
1-2 数据类型
大数据与缺失数据
- 大数据:亚马逊每天监控和追踪从其门店发出的约600万件商品 (数据量TB,PB拍字节)
- 缺失数据:随机非人为,人为(故意漏掉等)
- 缺失数据修正:1. 全部删除 2. 插补(采用回归分析等估计方法)
补充:回归与分类方法
- 线性回归方法:多元线性回归,压缩回归(岭回归,Lasso回归)
- 线性分类方法:Logistic回归,线性判别
- 非线性回归方法:决策树(回归树)
- 非线性分类方法:决策树(分类树),组合方法(Bagging,Boosting,随机森林),神经网络模型(深度学习),支持向量机(SVM),聚类方法(无监督)
(可利用分类方法进行相似用户的推荐,如:基于邻居的预测算法)