Case
文章平均质量分 93
张博208
知识搬运工
展开
-
数据科学工程师面试宝典系列之二---Python机器学习kaggle案例:泰坦尼克号船员获救预测
1.Python机器学习kaggle案例Numpy-python科学计算库;Pandas-python数据分析处理库;Scikit-learn-python机器学习库;2.泰坦尼克号数据介绍乘客编号、是否幸存、等级、姓名、性别、年龄、兄弟姐妹个数、带老人孩子个数、船票、船票价格、上船地点;3.数据预处理[python] view plai转载 2017-06-01 19:02:06 · 1388 阅读 · 1 评论 -
一个实例告诉你:Kaggle 数据竞赛都有哪些套路
前面写了很多篇理论,大家愿意一篇一篇坚持看下来其实挺不容易的,虽然理论很重要,但脱离了实践还是空中楼阁啊,算法科学家也不可能不代码啊,所以呀,今天我们就插播一期实践,和大家聊一聊实际过程当中机器学习算法的应用。对于我们这些初学者或者说外行来说,因为我们没机会接触到机器学习真正的应用项目,所以一些比赛平台往往是我们不错的选择,比如说这个Kaggle啊,前一段时间被Google收购还挺火的,还转载 2017-06-15 10:00:32 · 1956 阅读 · 0 评论 -
如何在 Kaggle 首战中进入前 10%
原文:https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/IntroductionKaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛,在 2125 个参赛队伍中排名第 98 位(~转载 2017-06-15 09:58:18 · 756 阅读 · 0 评论 -
关于Kaggle入门,看这一篇就够了
这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目,最好能亲身参与进来,体会一下学校所学的东西和想要解决一个实际的问题所需要的能力的差距。虽然不是Data Science出身,但本着严谨的科研态度,在进行了大量的调研、学习以及对相关经验者的访谈之后,决定写下这篇专栏,一方面让那些对数据科学(Data Science)有兴转载 2017-06-15 09:57:20 · 35018 阅读 · 8 评论 -
机器学习案例实战-信用卡欺诈检测
故事背景:原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数据做特征提取的操作,但是面对的挑战还是蛮大的。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom转载 2017-06-11 21:17:10 · 909 阅读 · 0 评论 -
Airbnb欺诈预测机器学习模型设计:准确率和召回率的故事
【编者按】Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。Airbnb信任和安全小组通过构建机器学习模型进行欺诈预测,本文介绍了其设计思想。假想模型是预测某些虚拟人物是否为“反面人物”,基本步骤:构建模型预期,构建训练集和测试集,特征学习,模型性能评估。其中特征转换倾向于采用条件概率编码(CP-coding),评估度量是准确率(P转载 2017-06-11 21:15:35 · 474 阅读 · 0 评论 -
通过一个kaggle实例学习解决机器学习问题
之前写过一篇 一个框架解决几乎所有机器学习问题 但是没有具体的例子和代码,今天看到一个不错的 kaggle 上的 code Exploratory Tutorial - Titanic 来解析一下,源码可以直接点这个链接。在这篇文章中可以学到一个完整的运用机器学习解决分析问题的过程,它包括了解决问题的一般流程,描述性统计的常用方法,数据清洗的常用方法,如何由给定的普通变量启发式思考其他转载 2017-06-19 11:25:16 · 818 阅读 · 0 评论 -
用python参加Kaggle的些许经验总结
Step1: Exploratory Data AnalysisEDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:每个feature的意义,feature的类型,比较有用的代码如下df.describe()df['Category'].unique()看是否存在missing valuedf.loc[df.Dat转载 2017-06-18 14:39:50 · 695 阅读 · 0 评论 -
开发者自述:我是如何从 0 到 1 走进 Kaggle 的
kaggle 是什么?Kaggle 是一个数据科学竞赛的平台,很多公司会发布一些接近真实业务的问题,吸引爱好数据科学的人来一起解决。 https://www.kaggle.com/ 点击导航栏的 competitions 可以看到有很多比赛,其中正式比赛,一般会有奖金或者工作机会,除了正式比赛还有一些为初学者提供的 playground,在这里可以先了解这个比赛,练习能力,转载 2017-06-18 15:43:33 · 629 阅读 · 0 评论 -
首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度
作者:Werner Chao翻译:白静术语校对:黄凯波本文长度为2800字,建议阅读8分钟线上心理健康公司KaJin Health首席数据分析师教你怎么一步步提升Kaggle竞赛模型的精确度。最近,Kaggle竞赛非常受欢迎,很多人都试图获得好成绩。但是,这些竞赛竞争十分激烈,获胜者通常不会透露其方法。通常情况下,获胜者只会写一个他们所做的事情的简单概述,而转载 2017-06-18 14:33:02 · 2818 阅读 · 0 评论 -
逻辑回归应用之Kaggle泰坦尼克之灾
作者: 寒小阳 时间:2015年11月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完转载 2017-06-18 14:30:41 · 845 阅读 · 0 评论 -
阿里天池大赛实战记录之菜鸟-需求预测与分仓规划
概述新赛季,天池终于迎来了我本专业的命题:菜鸟物流规划和需求预测。接下来的比赛中,本文会陆续记录比赛的详细过程,但是不能保证最后的结果优劣,希望对大家有一些启发,文章仅供参考,请勿模仿。什么是天池大赛下面是官方介绍天池平台基于阿里云的海量数据离线处理服务ODPS,向学术界提供科研数据和云计算资源,旨在打造“数据众智、众创”第一平台。简单来说,天池就是类似转载 2017-06-01 19:07:54 · 3200 阅读 · 3 评论 -
机器学习系列(18)_Kaggle债务违约预测冠军经验分享
原文:Kaggle predict consumer credit default 原文翻译与校对调整:@MOLLY && @寒小阳 时间:2016年10月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/52788775 声明:版权所有,转载请联系作者并注明出引言债务违约预测是Kaggle中的一个比赛,本转载 2017-06-01 19:06:01 · 1312 阅读 · 0 评论 -
自动预测保险理赔:机器学习之特征预处理(Kaggle保险索赔竞赛案例)
原文地址:https://yq.aliyun.com/articles/65158?spm=5176.8091938.0.0.3Wl7HH摘要: 针对Kaggle保险索赔竞赛给定的数据集,本文详细介绍了如何利用Python对数据集进行分析并对特种进行预处理操作。以保险索赔竞赛案例和详细的操作步骤,生动形象的讲解了自动预测保险索赔的算法流程。本文由北邮@爱可可-爱生活转载 2017-06-01 19:03:44 · 2405 阅读 · 0 评论 -
Kaggle实战学习 笔记
学习笔记第一课数据与可视化#numpy科学计算工具箱import numpy as np#使用make_classification构造1000个样本,每个样本有20个featurefrom sklearn.datasets import make_classificationX, y = make_classification(1000, n_features=20, n_in原创 2017-11-27 17:06:30 · 4351 阅读 · 0 评论