kaggle
dby_freedom
Everythin has a good ending, if it's not, then it's not the end.
展开
-
主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]
刷比赛利器,感谢分享的人。摘要最近打各种比赛,在这里分享一些General Model,稍微改改就能用的环境: python 3.5.2XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396 XG...转载 2018-05-02 23:22:58 · 2312 阅读 · 0 评论 -
【干货】Kaggle 数据挖掘比赛经验分享
简介Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在...转载 2018-04-25 11:10:17 · 625 阅读 · 0 评论 -
Kaggle实战——点击率预估
转载自: http://blog.csdn.net/chengcheng1394/article/details/78940565请安装TensorFlow1.0,Python3.5 项目地址: https://github.com/chengstone/kaggle_criteo_ctr_challenge-前言点击率预估用来判断...转载 2018-05-08 15:56:27 · 2594 阅读 · 0 评论 -
Sklearn中的CV与KFold详解
关于交叉验证,我在之前的文章中已经进行了简单的介绍,而现在我们则通过几个更加详尽的例子.详细的介绍CV%matplotlib inlineimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn i...转载 2018-05-08 13:09:51 · 7003 阅读 · 0 评论 -
Word Embedding与Word2Vec
http://blog.csdn.net/baimafujinji/article/details/77836142一、数学上的“嵌入”(Embedding) Embed这个词,英文的释义为, fix (an object) firmly and deeply in a surrounding mass, 也就是“嵌入”之意。例如:One of the bullets passed...转载 2018-05-20 10:46:25 · 571 阅读 · 0 评论 -
Python怎么利用多核cpu
原文链接http://www.cnblogs.com/stubborn412/p/4033651.htmlGIL 与 Python 线程的纠葛GIL 是什么东西?它对我们的 python 程序会产生什么样的影响?我们先来看一个问题。运行下面这段 python 程序,CPU 占用率是多少?# 请勿在工作中模仿,危险...转载 2018-05-06 14:15:26 · 28697 阅读 · 0 评论 -
nohup和&,进程后台运行、查看、终止
nohup 命令可以使命令永久的执行下去,和终端没有关系,退出终端也不会影响程序的运行; & 是后台运行的意思,但当用户退出的时候,命令自动也跟着退出。 那么,把两个结合起来nohup 命令 &这样就能使命令永久的在后台执行以run_train.sh文件为例source env_set.sh...转载 2018-05-06 10:10:44 · 3449 阅读 · 0 评论 -
What is LightGBM, How to implement it? How to fine tune the parameters?
What is LightGBM, How to implement it? How to fine tune the parameters?Hello,Data Science is the fastest growing field in the world. Everyday there will be a launch of bunch of new algorithm, some of ...转载 2018-05-11 15:23:17 · 975 阅读 · 0 评论 -
Introductory Guide – Factorization Machines & their application on huge datasets
googletag.cmd.push(function() { googletag.display('div-gpt-ad-1525327567902-0'); });IntroductionI still remember my first encounter with a Click prediction problem. Before this, I had been lear...转载 2018-05-11 09:38:57 · 544 阅读 · 0 评论 -
如何在关闭ssh连接的情况下,让程序继续在后台运行?
对Unix,Linux类服务器维护经常是通过ssh完成的,而有些操作比较费时,如更新程序等。此时如果断开ssh连接的话,更新程序就会随之被中断。如何保证断开ssh后仍旧能保持更新进程的运行呢?有两种方法: (1)nohup #nohup 应用程序名 & 此后,如果你断开了ssh,程序依旧运行。此种方式的缺点是,应用程序没有交互界面...转载 2018-05-03 20:32:37 · 1993 阅读 · 2 评论 -
sklearn、XGBoost、LightGBM理解与调参
本文主要是针对sklearn,XGBoost,LightGBM的官方文档阅读的一些整理,主要针对sklearn的集成方法、以及gbdt族模型的具体实现差异以及各个模型的重要参数、特点做了一个整理 sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是: bagging基本思想独立的训练一些基学习器(...转载 2018-05-03 13:42:39 · 4578 阅读 · 0 评论 -
sklearn中的fit fit_transform和transfrom区别
数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《使用sklearn做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三个方法fit、transform和fit_transform,fit方法居然和模型训练方法fit同名(不光同名,参数列表都一样),这难道都...转载 2018-05-03 13:04:37 · 975 阅读 · 0 评论 -
[scikit-learn] 特征二值化编码函数的一些坑
1. 前言2. 问题起源2.1. 对付数值型类别变量2.2. 对付字符串型类别变量2.3. 无用的尝试3. 另一种解决方案4. 参考资料1. 前言这几天埋头撰写『优雅高效地数据挖掘——基于Python的sklearn_pandas库』 一文,其中有一部分涉及如何批量并行地进行特征二值...转载 2018-05-03 00:04:39 · 340 阅读 · 0 评论 -
10 Min to Pandas(脑图)
原创 2018-10-19 18:56:43 · 830 阅读 · 0 评论