《基础统计学》学习笔记

背景

  1. 作者:Mario F. Triola (Dutchess Community College)
  2. 统计学作为数据科学的基础知识

第一章 统计学概述

Question #1 YouTube正在成为重要的学习工具吗?
不同类别的人之间的差异,当与总体相比时,可能比较小

重要原则:

  1. 样本必须以适当的方式进行采集(比如需要随机抽样)A. 随机抽样的标准
  2. 如果采样方法不正确,那么所得的数据可能是无效的,所得的结果也可能是无效的

1-1 统计与批判性思维

  1. 统计学通过随机抽样得到数据样本,通过研究样本获得总体的状态(status)
  2. 获取数据的方法是随机抽样,随机抽样需要注意数据来源和抽样方法
  3. 幸存者偏差:抽样过程也许要经历一段时间,此过程中总体大小可能发生变化,需要考虑到
  4. 大样本未必比小样本好
  5. 统计分析:通过作图和应用统计方法
  6. 统计显著性:一旦超过某个统计指标,表示当前状态不可能是偶然发生的,说明该状态其实就是已经发生了
  7. 数据采集过程中有可能受到人为因素干扰,应尽可能避免

1-2 数据类型

大数据与缺失数据

  1. 大数据:亚马逊每天监控和追踪从其门店发出的约600万件商品 (数据量TB,PB拍字节)
  2. 缺失数据:随机非人为,人为(故意漏掉等)
  3. 缺失数据修正:1. 全部删除 2. 插补(采用回归分析等估计方法)

补充:回归与分类方法

  1. 线性回归方法:多元线性回归,压缩回归(岭回归,Lasso回归)
  2. 线性分类方法:Logistic回归,线性判别
  3. 非线性回归方法:决策树(回归树)
  4. 非线性分类方法:决策树(分类树),组合方法(Bagging,Boosting,随机森林),神经网络模型(深度学习),支持向量机(SVM),聚类方法(无监督)
    (可利用分类方法进行相似用户的推荐,如:基于邻居的预测算法)
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值