数据分析杂记
数据分析方面学习记录
基因杂记
数学建模机器学习等
展开
-
数据预处理(一)
4.5 删除空值的行(最后进行,确保空值行不会太多)6.1 将“活检结果”列的高危为1,其它为0。4.2 删除具体列(或者选取保留列)4.3 删除“质控”=“不合格”的行。5.1 查看指定列的值的种类及个数。5.2 查看所有列的值的种类及个数。7 将所有值转成int64以便建模。1 读取excel表的第一张表。6.2 将“HPV感染”列分类。3.1 查看id是否重复。4.4 年龄异常值处理。3.2 删除多余id。6 处理列内值的种类。原创 2024-09-30 10:30:41 · 137 阅读 · 0 评论 -
一致性检验 VS 相关性检验
一致性检验用于判断两个(或多个)数据集(或方法)之间的一致性程度,或者判断一组观测数据是否与某个预期的理论分布或模型一致。目的:关注数据集或者方法。例子:同一个样本,在不同平台处理后,变成两个数据集,判断两个平台得到的数据是否一致。可用Kappa系数。原创 2024-09-29 15:34:21 · 299 阅读 · 0 评论 -
异质性 vs 组间差异
异质性是关于样本内部多样性的描述,比如性别、年龄、测量工具等导致的多样性;而组间差异是关于不同组之间比较的结果。异质性关注的是样本中存在的不同特征,组间差异关注的是这些特征对结果的影响。异质性可以导致组间差异。原创 2024-09-27 13:40:34 · 279 阅读 · 0 评论