FastAi X Kaggle
文章平均质量分 78
print(’指引明路的苍蓝星‘)
这个作者很懒,什么都没留下…
展开
-
Kaggle X FastAi 手写字识别
原始数据 数据这方面,Kaggle给出的是csv文件,0列表示的是标签,其他28*28列是每个像素的值,而FastAi在设计的时候是没有考虑这种数据的,所以DataLoaders和learner都是不支持该类型的数据的。某些文章的做法是重写DataLoaders和learner的Model,但是个人观点,这样的话直接用Torch不是更好的选择么。FasterAi的API那么用是一定要用的,而数据都是像素值也不必要特殊的预处理,所以生成数据就完事了。 数据生成 采用了PIL.Image中的方法,配合os原创 2021-07-19 11:34:51 · 207 阅读 · 0 评论 -
Titanic - (XGBoost,RF随机森林,Fastai-tabular_learner)总结
数据处理 从高分code学到很多表格数据处理的方法,主要是以下几种: fillnaNan值得填充确实会对准确率有小幅度的提升 数据增强使用原始数据为基础生成额外的维度 连续数据转换将连续数据分段转换成分类数据 one-hot独热编码通过pandas.get_dummies()可以轻松实现分类数据的独热编码 算法 表格数据集在小数据量的情况下,决策树家族更有竞争力。采取了一些算法的对比使用,放在Titanic-M.ipynb中,代码地址https://github.com/AshenWit...原创 2021-07-17 13:42:15 · 317 阅读 · 0 评论 -
Kaggle X FastAI系列 1 --titanic(改)
前情概要 之前的第一版直接使用fastai提供的方法,过拟合问题比较严重,所以寻求了一下改进方法。 CostFunction 经过几次测试,将CostFunction改为了 loss_func=FocalLossFlat(gamma=5) 从fastai官方文档中的CostFunction中看到了它,论文没有看,体感这个gamma应该是个超参数。经过测试gamma的值越大对w和b的惩罚越大,当gamma的值取10左右时产生梯度消失。gamma的默认值为1,针对这个数据集gamma取2-6的效果比原创 2021-07-15 18:03:10 · 112 阅读 · 0 评论 -
Kaggle X FastAI系列 1 --titanic
数据准备 直接在Anaconda命令行里用kaggle提供的命令下载,参考fastbook中09_tabula的API方法没有成功。 用pandas读取一下数据。 path = URLs.path('titanic') train_path = path/'train.csv' test_path = path/'test.csv' df = pd.read_csv(train_path, low_memory=False,skipinitialspace=True)...原创 2021-07-15 10:51:53 · 71 阅读 · 0 评论