- 博客(7)
- 资源 (3)
- 收藏
- 关注
原创 利用GBDT模型构造新特征
实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话:特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已。本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法1。论文的思想很简单,就是先用已有特征训练GBDT模型,然后利用GBDT
2016-06-27 16:20:48 13727 7
原创 【开车了】大数据竞赛技术分享
本次分享为笔者在一年半时间里的关于数据挖掘技术在学习和实践方面的经验由于准备时间仓促和水平有限,有误之处请多多指教
2016-06-23 20:35:20 9274 7
原创 【开车了】9个大数据竞赛思路分享
本次分享主要从笔者过去一年和今年上半年的参赛经验来做讲解后续将会针对目前天池开放的几个新人挑战赛推出手把手教你进首页系列文章包括赛题详细思路讲解,demo代码讲解。开始今天的分享是将之前的比赛做一个压缩,每个比赛两页搞定。首先介绍下这一年半的战绩,主要参加了9个比赛,有7次进入top10。成绩不好的就没放上来了哈,主要广东交通那两个没时间去搞,当时在弄穿衣搭配。
2016-06-19 20:27:41 12484 2
原创 【天池竞赛系列】菜鸟-需求预测与分仓规划初赛冠军解决方案
第一赛季第一名,第二赛季第6名,答辩结束后再公开方案。主要从模型与规则方面结合补多补少成本入手。
2016-06-15 21:56:03 8569 5
原创 Python在windows下安装三方包
1.建议下载anaconda 里面自带很多三方包和一些工具(比如pip),conda镜像2.在这里找需要的包选择对应的版本,比如3.5的就选择带有35的,64位系统就选带64的whl文件就行3.cd 到安装包的位置执行 pip install name.whl 其中name是下载的三方包名字就是这么方便,简单山寨可依赖 pip install --upgrad...
2016-06-08 11:06:38 1104
原创 结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征...
2016-06-07 22:51:32 79452 18
原创 python~pandas常用代码
来源:http://www.cnblogs.com/chaosimple/p/4153083.html# coding=gbk'''Created on 2016年6月1日 @author: bryan'''import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 1、可以通过传递一个li
2016-06-01 23:48:00 5493
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人