Kaggle实战学习 笔记

学习笔记 第一课 数据与可视化 #numpy科学计算工具箱 import numpy as np #使用make_classification构造1000个样本,每个样本有20个feature from sklearn.datasets import make_classification X...

2017-11-27 17:06:30

阅读数 2586

评论数 0

通过一个kaggle实例学习解决机器学习问题

之前写过一篇 一个框架解决几乎所有机器学习问题 但是没有具体的例子和代码,今天看到一个不错的 kaggle 上的 code Exploratory Tutorial - Titanic 来解析一下,源码可以直接点这个链接。 在这篇文章中可以学到一个完整的运用机器学习解决分析问题的过程,它...

2017-06-19 11:25:16

阅读数 328

评论数 0

开发者自述:我是如何从 0 到 1 走进 Kaggle 的

kaggle 是什么? Kaggle 是一个数据科学竞赛的平台,很多公司会发布一些接近真实业务的问题,吸引爱好数据科学的人来一起解决。  https://www.kaggle.com/  点击导航栏的 competitions 可以看到有很多比赛,其中正式比赛,一般会有奖金或者工作机会,除了...

2017-06-18 15:43:33

阅读数 430

评论数 0

用python参加Kaggle的些许经验总结

Step1: Exploratory Data Analysis EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括: 每个feature的意义,feature的类型,比较有用的代码如下 df.describe() df['Category...

2017-06-18 14:39:50

阅读数 441

评论数 0

首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度

作者:Werner Chao 翻译:白静 术语校对:黄凯波 本文长度为2800字,建议阅读8分钟 线上心理健康公司KaJin Health首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度。 最近,Kaggle竞赛非常受欢迎,很多人都试图获得好成绩。但是,这些竞赛竞争十分激烈,...

2017-06-18 14:33:02

阅读数 1630

评论数 0

逻辑回归应用之Kaggle泰坦尼克之灾

作者: 寒小阳  时间:2015年11月。  出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143  声明:版权所有,转载请注明出处,谢谢。 1.引言 先说一句,年末双十一什么的一来,真是非(mang)常(ch...

2017-06-18 14:30:41

阅读数 589

评论数 0

一个实例告诉你:Kaggle 数据竞赛都有哪些套路

前面写了很多篇理论,大家愿意一篇一篇坚持看下来其实挺不容易的,虽然理论很重要,但脱离了实践还是空中楼阁啊,算法科学家也不可能不代码啊,所以呀,今天我们就插播一期实践,和大家聊一聊实际过程当中机器学习算法的应用。 对于我们这些初学者或者说外行来说,因为我们没机会接触到机器学习真正的应用项目,所...

2017-06-15 10:00:32

阅读数 1334

评论数 0

如何在 Kaggle 首战中进入前 10%

原文:https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/ Introduction Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在...

2017-06-15 09:58:18

阅读数 518

评论数 0

关于Kaggle入门,看这一篇就够了

这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目,最好能亲身参与进来,体会一下学校所学的东西和想要解决一个实际的问题所需要的能力的差距。虽然不是Data Science出身,但本着严谨的科研态度,在进行了大量的调研、学...

2017-06-15 09:57:20

阅读数 23482

评论数 7

机器学习案例实战-信用卡欺诈检测

故事背景:原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数据做特征提取的操作,但是面对的挑战还是蛮大的。 import pandas as pd impo...

2017-06-11 21:17:10

阅读数 511

评论数 0

Airbnb欺诈预测机器学习模型设计:准确率和召回率的故事

【编者按】Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。Airbnb信任和安全小组通过构建机器学习模型进行欺诈预测,本文介绍了其设计思想。假想模型是预测某些虚拟人物是否为“反面人物”,基本步骤:构建模型预期,构建训练集和测试集,...

2017-06-11 21:15:35

阅读数 262

评论数 0

阿里天池大赛实战记录之菜鸟-需求预测与分仓规划

概述 新赛季,天池终于迎来了我本专业的命题:菜鸟物流规划和需求预测。接下来的比赛中,本文会陆续记录比赛的详细过程,但是不能保证最后的结果优劣,希望对大家有一些启发,文章仅供参考,请勿模仿。 什么是天池大赛 下面是官方介绍 天池平台基于阿里云的海量数据离线处理服务ODPS,向...

2017-06-01 19:07:54

阅读数 1191

评论数 2

机器学习系列(18)_Kaggle债务违约预测冠军经验分享

原文:Kaggle predict consumer credit default  原文翻译与校对调整:@MOLLY && @寒小阳  时间:2016年10月。  出处:http://blog.csdn.net/han_xiaoyang/article/details/52...

2017-06-01 19:06:01

阅读数 559

评论数 0

自动预测保险理赔:机器学习之特征预处理(Kaggle保险索赔竞赛案例)

原文地址:https://yq.aliyun.com/articles/65158?spm=5176.8091938.0.0.3Wl7HH 摘要: 针对Kaggle保险索赔竞赛给定的数据集,本文详细介绍了如何利用Python对数据集进行分析并对特种进行预处理操作。以保险索赔竞赛案...

2017-06-01 19:03:44

阅读数 649

评论数 0

数据科学工程师面试宝典系列之二---Python机器学习kaggle案例:泰坦尼克号船员获救预测

1.Python机器学习kaggle案例 Numpy-python科学计算库;Pandas-python数据分析处理库;Scikit-learn-python机器学习库; 2.泰坦尼克号数据介绍 乘客编号、是否幸存、等级、姓名、性别、年龄、兄弟姐妹个数、带老人孩子个数、船票、船票...

2017-06-01 19:02:06

阅读数 1041

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭