先介绍自己的情况,非统计学专业,大学经管类文科背景,但数学基础还行,高数上下期末满分,线代概率论期末90分以上,但是考完就忘依然说明不了什么,找工作的过程中老是被问到是不是统计学专业?统计学怎么样?最近在找完工作后,决定好好系统的自学下统计学。先从列书单开始。如何建立这个自学系统?很简单,找个统计学专业的专业课课表不就行了,但是专业的又太难,这里参考下知乎上两位清华大佬辅修统计学的课表,并列出每门课程的综合评估推荐的书籍和资源。
图片来源:https://www.zhihu.com/question/42828838/answer/321599384
以下课程学习难度按顺序依次增加(个人观点):
《初等概率论》:几乎是每个大学的数学基础必修课,难度不大,但是需要弄清楚很多概念,不然到后期学习进阶的时候非常痛苦,比如最基础的总体、样本、总体方差、样本方差、抽样方差、标准误和均方误差的区别。把初等概率论介绍得最完整且每个概念都加上案例的教材推荐用的是 Probability and Statistics 4E。
《数据科学导论》:因为R语言、stata等工具是比较适合用来做统计分析的,里面集成了大量现成的包和函数来直接实现采样、假设检验、分布函数等,这门课程主要讲解R语言的基础,比如数据处理(dplyr, reshape2, data.table,tidyverse)可视化(ggplot2)web(shiny)文本分析(Regular Expression)都是目前最火最有用的技能,这里就自己推荐一本最火的R语言实战 2E。
《线性回归分析》:线性回归几乎是所有模型的入门模型,但是很多课程上只讲了如何去拟合得到模型,没有讲解用线性模型的条件和模型成立的检验。这门课程主要讲了线性回归的本质整门课五个slides——基础知识/一元线性回归/矩阵形式/多元线性回归/方差分析。包括讲述了模型如何诊断问题,如何改进。教材是国外研究生最推荐的Applied Linear Statistical Models 5E,内容不会涉及太复杂的证明。
《多元统计分析》:介绍多元正态分析,主成分分析,因子分析,聚类分析等等分析处理高维数据的手段。国内清华、上交都用的这本教材Applied Multivariate Statistical Analysis 6E。
《统计推断》:统计学核心课程,很多统计学教材的第三四章就会开始讲解统计推断,比如参数点估计、区间估计、假设检验等,再难一些的Bootstrap再抽样法、刀切(Jackkrlife)估计、EM算法、Logistic回归、稳健(Robest)回归、Markov链、Monte Carlo方法等。建议在B站上找视频配合教材一起看,教材推荐Casella 的 Statistical inference。
《贝叶斯数据分析》:基础主要是贝叶斯推断、先验分布的确定,进阶包括单参数模型到多参数模型到层次化模型,计算方法如各种采样方法,MH,MCMC。英文教材是 Gelman 的 Bayesian Data Analysis,中文教材推荐贝叶斯统计,先看中文教材的前100页,再看英文教材。贝叶斯统计这本书的视频推荐西安交通大学的梅长林教授。
https://www.bilibili.com/video/av59317868?from=search&seid=13900492311165502242
《统计计算》:基础主要讲离散和连续随机数的生成,难点的主要是EM、boostrap、MCMC、凸优化、模拟退火那些,其中MCMC是对复杂分布采样的好方法,目前大多数论文都用这个方法进行参数求解,教材推荐李东风的统计计算,同时这本书北大的老师有专门的博客针对里面的方法用R语言实现,可结合一起看。http://www.math.pku.edu.cn/teachers/lidf/docs/statcomp/html/_statcompbook/index.html
《因果推断和图模型》:一门好课,但是除统计学专业,其他的专业都不会开的课。研究因果性应该属于通识教育,经管类专业应该开设,避免很多人出现相关关系直接推因果的尴尬误区。介绍 Rubin Causal Model 框架下随机化实验的推断和观察性研究的方法。基础教材推荐Robins Causal inference,同时推荐人工智能先驱、贝叶斯网络之父 Pearl 的The Book of Why: The New Science of Cause and Effect。
《应用时间序列分析》:主要讲ARIMA和GARCH这两个时间序列模型,应用场景有预测股票、评估收益率、评估风险等,教材推荐何书元的应用时间序列分析。
《可靠性数据与生存分析》:各种Survival Model,对有“删失数据”的分析场景很有用。比如检验影响灯泡寿命的参数,检验某个药物对人是否有效等等,教材推荐John survival analysis techniques for censored and truncated data 2E。视频推荐B站UP主饺子博士的视频。
《非参数统计》:难度很大,可以需要时再学。主要涉及非参估计和非参数检验,比如核函数方法,推荐liqi的Nonparametric econometrics: theory and practice。
资源在公众号回复“统计学”获取:DataGo数据狗。