建模:
前两个task中学会了怎么清洗数据准备数据,相当于得到了喂给模型的建模数据。
判断是否存活,所以是个监督问题。
下面这个图实在是有灵性。
【思考】
- 划分数据集的方法有哪些? 留出法、k折验证法
- 为什么使用分层抽样,这样的好处有什么?分层抽样的精度比简单随机抽样的精度高
单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果。
参数说明:train_test_split (*arrays,test_size, train_size, rondom_state=None, shuffle=True, stratify=None)
- arrays:特征数据和标签数据(array,list,dataframe等类型),要求所有数据长度相同。
- test_size / train_size: 测试集/训练集的大小,小数表示比例 / 整数表示数据个数。
- random_state:随机种子(一个整数),random_state相同划分结果也相同。
- shuffle:是否打乱数据的顺序,再划分,默认True。
- stratify:none或者array/series类型的数据,表示进行分层采样的依据。
为什么线性模型可以进行分类任务,背后是怎么的数学关系?
设定阈值?概率问题
对于多分类问题,线性模型是怎么进行分类的?
也是算概率?不太记得了
评估:
评价评的是模型的泛化能力。
“交叉验证(cross-validation)是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。”
k折越多的情况下会带来什么样的影响?
偏差和方差的问题