kaggle平台学习复习
文章平均质量分 86
以实战为线索
代码魔法师!
这里只是用来记笔记方便,无意讨好读者,有价值的文章会设置粉丝可见和付费专区,不喜勿看
展开
-
kaggle竞赛 | 计算机视觉 | Doodle Recognition Challenge
'作为实验性游戏发布,以有趣的方式向公众宣传 AI 的工作原理。游戏提示用户绘制描绘特定类别的图像,例如“香蕉”、“桌子”等。游戏生成了超过 1B 幅图画,其中的一个子集被公开发布,作为本次比赛训练集的基础。您需要构建一个识别器,它可以有效地从这些嘈杂的数据中学习,并在来自不同分布的手动标记的测试集上表现良好。每一种类型的数据图片,都放在一个单独的csv中,下面要对整个数据集进行处理。这里我们是先采用少量数据集训练,试一下数据是否拟合,若拟合。这里用的是opencv,cv的处理速度大于pillow。原创 2023-01-26 16:31:41 · 985 阅读 · 0 评论 -
kaggle竞赛 | 计算机视觉 | 数字图像基础操作
其中光谱色所占的比例越大,颜色越接近光谱色,颜色的饱和度也就越高。饱和度高,颜色就越深越艳。RGB 颜色空间利用三个颜色分量的线性组合来表示颜色,任何颜色都与这三个分量有关,而且这三个分量是高度相关的,所以连续变换颜色时并不直观,想对图像的颜色进行调整需要更改这三个分量才行。明度表示颜色明亮的程度,对于光源色,明度值与发光体的亮度有关;RGB 是我们接触最多的颜色空间,由三个通道表示一幅图像,分别为红色®,绿色(G)和蓝色(B)。从红色开始安逆时针方向计算,红色为0度,绿色为120度,蓝色为240度。原创 2023-01-25 10:47:57 · 839 阅读 · 0 评论 -
kaggle竞赛 | Quora Insincere Question | 文本情感分析
之前发布了一遍实战类的情感分析的文章,包括微博爬虫,数据分析,相关模型。原创 2023-01-20 21:19:58 · 1484 阅读 · 2 评论 -
kaggle竞赛 | Quora Question Pairs | 判断相似的Question
不懂请看代码比赛链接:(数据集下载)原创 2023-01-19 22:16:23 · 600 阅读 · 0 评论 -
kaggle竞赛 | Instant Gratification
kaggle比赛链接:https://www.kaggle.com/competitions/instant-gratification/data查看所有列名,以及对应的列名(nunique()方法)返回不同值的个数可以看到这一列的不同值的个数是512个查看wheezy-copper-turtle-magic固定的情况下,其他字段的分布情况基本均满足正太分布,很规范的数据集训练一个逻辑回归模型结果基本是瞎猜的准确率(0.5)考虑到wheezy-copper-turtle-m原创 2023-01-16 17:55:46 · 567 阅读 · 0 评论 -
kaggle平台学习复习笔记 | 特征工程
特征工程决定了模型精度的上限。特征工程是数据挖掘的主要工作内容:数据清洗、数据预处理、数据转换。特征工程大概占据了60%-70%的时间。原创 2023-01-13 21:14:22 · 536 阅读 · 0 评论 -
kaggle平台学习复习笔记 | 数据划分与模型集成
可以看到,第一种划分不均匀,当添加参数stratify=Y时,可以看到数据均被转换为合理的数值格式,供模型训练使用。sklearn中封装的一系列的数据划分的代码。(24, 35) 是 Young Adult。在将新的特征拼接到训练集上,进行新的学习。(12, 18) 是 Teenager。(18, 24) 是 Student。在第一次学习的基础上生成新的特征,类似的查看其他字段和幸存率的关系。不均匀的分布方式 KFold。(5, 12) 是 Child。理想情况下AUC接近0.5。原创 2023-01-12 20:54:52 · 571 阅读 · 0 评论 -
kaggle平台学习复习笔记 | XGBoost、LightGBM and Catboost
介绍高阶树模型,它的出现略晚于随机森林使用原生接口def run_xgb(X_train , y_train , X_val , y_val , X_test) : # 参数参考官方文档 params = {原创 2023-01-09 17:19:31 · 551 阅读 · 0 评论 -
kaggle平台学习复习笔记 | Data Visualization | Seaborn
seaborn原创 2023-01-09 15:13:06 · 383 阅读 · 0 评论 -
kaggle平台学习复习笔记 | pandas
您可以在这个数据集中看到CSV文件有一个内置索引,panda并没有自动获取该索引。为了使panda使用该列作为索引(而不是从头创建一个新列),我们可以指定一个index_col。另一个值得一提的groupby()方法是agg(),它允许您同时在DataFrame上运行一系列不同的函数。要选择NaN条目,可以使用pd.isnull()(或其伴随的pd.notnull())的数据,显示字段的平均值,最大值,最小值等。原创 2023-01-04 20:30:51 · 668 阅读 · 6 评论 -
kaggle平台学习复习笔记 | 计算机视觉
请注意,在应用ReLU激活函数后,特征图最终会出现大量“死空间”,即仅包含0的大区域(图像中的黑色区域)。相反,我们希望精简特征图,只保留最有用的部分——特征本身。然而,最大池层的步长值几乎总是大于1,如(2,2)或(3,3),但不大于窗口本身。我们可以想象,某些特征可能更具汽车的特征,而其他特征则更具卡车的特征。每个块代表一轮提取,通过组合这些块,convnet可以组合和重组生成的特征,使其生长和成形,以更好地解决当前的问题。这里的技巧是在输入的边界周围填充0,使用足够的0使输出的大小与输入的大小相同。原创 2023-01-07 20:33:30 · 771 阅读 · 0 评论