Kaggle比赛
源码分析
sapienst
Let Data Speak
展开
-
特征预处理- Kaggle比赛必须了解的数据预处理
数据科学之道:数据和特征决定了模型的上限文章目录对数/指数化离散化数值化正规化(正则化) L1 L2归一化标准化对数/指数化np.log([1, 2, 3, 4])np.exp([1, 2, 3, 4])离散化import numpy as npimport pandas as pdlst = [6,8,10,15,23,24,25,40,67]#等深分箱,平均处理数据长度,缺...原创 2020-03-06 07:18:18 · 806 阅读 · 0 评论 -
Kaggle比赛系列:比赛流程和竞赛分类
一、Kaggle比赛基本流程1、Importing Libraries and Packages2、Loading and Viewing Data Set3、Dealing with NaN Values (Imputation)4、Plotting and Visualizing Data5、Feature Engineering6、Modeling and Predicting ...原创 2020-03-04 19:49:30 · 4050 阅读 · 0 评论 -
Kaggle比赛系列:(6)Sklearn应用:data-science-london-scikit-learn
1、先使用一个简单的模型,得到一个baseline,在此基础上改进:输入特征标准化、特征降维等;2、这里出现了GMM算法,其实际作用是对输入特征进行了后验概率的预测,构建了新的输入特征(使同一类的特征距离更短,聚类作用)import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as...原创 2020-03-03 10:54:09 · 456 阅读 · 0 评论 -
Kaggle比赛系列: (5) Mercari Price Suggestion Challenge(商品价格预测)
keras+RNN一.sklearn包学习from sklearn.preprocessing import LabelEncoder,MinMaxScalerfrom sklearn.model_selection import train_test_splitsklearn.preprocessing包中的LabelEncoder函数==>标签编码le = LabelEn...原创 2020-01-19 22:11:15 · 748 阅读 · 0 评论 -
Kaggle比赛系列: (4) House Prices: Advanced Regression Techniques
声明: 从kaggle入门比赛的第4篇开始,将不会再详细的贴出数据处理\特征工程\建模流程,针对每一片文章的特点,突出leaf在大神notebook中的主要收获,但是完整代码我依然会打包整理上传.1. drop(inplace)剔除某一列train.drop("Id", axis = 1, inplace = True)test.drop("Id", axis = 1, inplace = ...原创 2020-01-15 11:01:57 · 402 阅读 · 1 评论 -
Kaggle比赛系列: (3) Titanic-2
前言:这是Titanic的第二篇文章, 在多模型ensemble之后并没有提高LB的得分和排名,但是依然是精挑细选的一片开源notebook.亮点在数据分析和特征工程.1. 查看数据1.1 数据加载import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns%matp...原创 2020-01-11 11:30:51 · 391 阅读 · 0 评论 -
Kaggle比赛系列: (3) Titanic-1
比赛介绍Titanic被认为是Kaggle比赛的入门项目,简要概括这个竞赛: 根据Titanic上乘客的姓名, 年龄, 性别, 收入等特征, 预测乘客的存活.数据集:链接: https://pan.baidu.com/s/1_a2fZ_QWIDq-G_j5mk1sgw 提取码: rcne数据集描述: 乘客相关特征描述如下参赛大神比赛记录原文地址: https://www.kaggle....原创 2020-01-07 23:18:45 · 277 阅读 · 0 评论 -
Kaggle比赛系列:(2) Digit Recognizer
比赛介绍手写数字分类(0-9),官方描述这是Kaggle比赛,计算机视觉领域的"Hello World".(然而数据集依然是结构化数据.csv),属于分类任务.数据集:链接: https://pan.baidu.com/s/1Pil_YCn6x2CfkYdYONVAUg 提取码: n54q数据集描述: 图像大小28pixels×28pixels(784),每个像素点含有一个像素值,像素值介于...原创 2020-01-06 17:12:56 · 471 阅读 · 0 评论 -
一文走进kaggle
这篇文章将主要根据一个Kaggle比赛的Data,Notebooks,Discussion,Leaderboard,Rules,team几个环节的关键部分进行讲解,原文链接我会在最后给出,这里我只总结摘录一些我个人比较感兴趣的点,写的不清楚,请见谅,有问题可以留言讨论.1. 比赛时间安排注意开始时间,组队截止时间和最终提交时间。一般一个比赛会持续几个月,最终提交时间就是比赛结束的标志。组队截...原创 2020-01-04 13:21:01 · 556 阅读 · 0 评论 -
Kaggle比赛系列:(1)LANL Earthquake Prediction
比赛介绍地震预测主要是为了解决3个问题:什么时候会发生?(when)会在哪里发生?(where)会发生多大规模的地震?(what)。这个竞赛主要是预测地震什么时候会发生,具体来说,将根据实时地震数据预测实验室地震发生前的剩余时间(地震是模拟的,数据是真实的)数据集:链接: https://pan.baidu.com/s/1oOZK6jc8BzxKUcp8OsgHMQ 提取码: 9i8c数据集...原创 2020-01-04 10:00:20 · 859 阅读 · 0 评论