1.下载和缓存数据集;2,读取数据集;3,数据预处理;4,训练流程函数设定;5,k折验证函数;6,k折训练流程来寻找较好超参数;7,利用超参数来更新预测
详细流程以及函数注意:
一.下载和缓存数据集:核心三个函数:0-建立含有网址和哈希码的字典,便于之后判断和提取;
1-从网页获取数据集:
{1-对输入文件进行assert判断其是否位于字典中(关键字);
2-如果在字典中,判断其路径是否存在,使用exist()函数判断(没有对应文件夹可以makedirs先创建一个)
第二部分为两个:如果存在,进入内层逻辑,with open文件后利用for加read函数进行迭代读取,每次把读取的内容传入sha1()中,之后利用sha1.hexdigest()和原本存放在字典中的哈希码比较,如果相同,通过return来返回文件路径并结束下载函数,如果不同,则结束exist()内层逻辑,进入后面的下载步骤。
3-下载步骤(在exist判断失败后):利用reguest.get()函数通过网址下载,并且下载完后with open文件用.write(f.content)写入,并且返回文件路径}
2-对获得的数据集进行解包:
{1-首先利用path.dirname获取上层目录(之后用来指定解压目录),