本博客用于:
- 学习卫生统计学及流行病学中的各种概念与观点
- R语言实践方法
- 尝试融入数据科学
!!注意:虽然本博客是以数据科学的视角记录的,但文中用到的大部分术语都来自统计学而非数据科学,两者的相应关系会在后期补充,或于参考书籍【2】中查阅
参考书籍:
【1】R语言实战:第2版 / (美)卡巴科弗 著;王小宁等译. —— 北京 : 人民邮电出版社, 2016.5
ISBN 978-7-115-42057-2
【2】数据科学中的实用统计学 :第2版 /(美)彼得·布鲁斯,(美)安德鲁·布鲁斯,(德)彼得·格德克 著;陈光欣译. —— 北京 :人民邮电出版社,2021.10
ISBN 978-7-115-56902-8
【3】卫生统计学 / 李晓松主编.——8版.——北京:人民卫生出版社,2017
ISBN 978-7-117-24666-8
【4】统计学/贾俊平,何晓群,金勇进编著. ——8版.——北京:中国人民大学出版社,2021.10
ISBN 978-7-300-29310-3
【5】流行病学/沈洪兵,齐秀英主编.——9版.——北京:人民卫生出版社,2018
ISBN 978-7-117-26672-7
【6】流行病学/詹思延主编.——8版.——北京:人民卫生出版社,2017
ISBN 978-7-117-24557-9
什么是(卫生)统计学
统计学是关于数据的学科,其工作的展开即:
收集 分析
解释与表达
获得可靠结论
其是一门从经验中学习的学科,是面对不确定性时利用重复观测总结得到的经验和规律从而辅助决策的方法论
从经验中学习的过程属于归纳法,用统计学术语来表达则是:统计推断 —— 从总体(整体、普遍、事物内在规律)中抽取部分具有代表性的个体,对这些抽样所得的个体所组成的样本样本(个别、特殊、经验事实)进行观察与测量,获得相应数据,对数据进行分析并结合概率只是,透过样本数据对总体特征与规律进行推断的过程。
(因统计学最重要的特征是关注普遍性而非特殊性,所以其指导的决策不一定适用每一个个体)
我没见过!我怎么不是!我身边都是....
什么是流行病学
流行病学的相关定义很多,我们取其中最简要的:流行病学史研究疾病和健康状态在人群中的分布(此处的分布并不同于概率中的分布,这是流行病学的研究起点)及其影响因素(这是流行病学的研究重点),借以制定和评价预防、控制、消灭疾病及促进健康的策略与措施(这是流行病学的研究目的)的科学。
率
率表示的是一定条件下,某现象实际发生的例数与可能发生该现象的总例数之比,用来说明的是单位时间(指的是研究时间作为单位时间)能发生某现象的频率(即强度描述)
k = 100%,1000‰,10000/万,100000/10万等
比
-
相对比
表示两者之间的相对水平,常用倍数或百分数表示
当表示百分数时乘100%
甲乙指标可以性质相同或相异
-
构成比
表示事物内部各个组成部分所占总体的比重,常表示为百分数
实际使用中需要警惕使用比代替率
R的获取与安装
R是广泛应用于统计分析的高级语言,因为其开源、自由、免费的特征我们在这里使用R而不是SAS/SPSS
下载:https://cran.r-project.org/
根据你所使用的系统选择合适的已编译的二进制版本