自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (7)
  • 收藏
  • 关注

原创 结合Scikit-learn介绍几种常用的特征选择方法

参考http://www.cnblogs.com/hhh5460/p/5186226.html 未完,占坑后续填写 目标构成一套成型的自动特征选择的多方案集成输出

2016-12-26 22:20:13 7370 1

原创 数据处理与模型选择的一些注释

数据处理与模型选择的一些注释数据预处理采样与过滤随机采样以随机方式生成采样数据,每次采样是各自独立的加权采样以加权方式生成采样数据;权重列必须为double或int类型,按照该列的value大小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些。过滤与映射对数据按照过滤表达式进行筛选。”过滤条件”中填写where语句后面的sql脚本即可;”映射规则”可以renam

2016-12-26 22:18:28 3476

原创 对机器学习与数据竞赛的一些总结

应导师要求,给新来的师弟师妹讲讲机器学习的一些东西,方便有个大概的结构,本人不才,略写点自己的看法和总结,有错误之处请多多指教。回顾比赛最近半年参加的比赛成绩:1. 阿里音乐流行趋势预测大赛 2016.5.17-7.15 Top 15/54762. 最后一公里极速配送 2016.7.4-9.9 Top 31/14603. 阿里云安全算法挑战赛 2016.8.22-10

2016-12-23 21:47:15 6577 2

原创 并发和并行

并发和并行并发和并行从宏观来看,都是为进行多任务运行,但并发(Concurrency)和并行(parallelism)两者之间是有区别的并行并行是指两个或者两个以上任务在同一时刻同时运行 eg:A进程的线程1和B进程的线程1同时刻在不同核上运行并发并发是指两个或两个以上的任务在同一时间段内运行,即一个时间段中有几个任务都处于已启动运行到运行完毕之间,这若干任务在同一CPU上运行但任一个时刻点上只有

2016-12-23 10:43:55 660

原创 xgboost使用调参

github:https://github.com/dmlc/xgboost 论文参考:http://www.kaggle.com/blobs/download/forum-message-attachment-files/4087/xgboost-paper.pdf基本思路及优点http://blog.csdn.net/q383700092/article/details/6095...

2016-12-20 15:14:41 27014 2

原创 GBDT 原理与使用

基本思想GBDT–Gradient Boosting (Regression) Decistion Tree GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种用于回归的机器学习算法,该算法由多棵回归决策树组成,所有树的结论累加起来做最终答案。当把目标函数做变换后,该算法亦可用于分

2016-12-19 17:11:39 7674 1

原创 Xgboost筛选特征重要性

基本思想根据结构分数的增益情况计算出来选择哪个特征的哪个分割点,某个特征的重要性,就是它在所有树中出现的次数之和。使用代码import pandas as pdimport xgboost as xgbimport operatorfrom matplotlib import pylab as pltdef ceate_feature_map(features): ...

2016-12-16 21:00:38 37314 4

原创 Scala笔记学习之二

定义主函数object HelloWorld { def main(args: Array[String]) { println("Hello, world!") }}#交互式命令行调用HelloWorld.main(null)Scala代码作为脚本语言./hello.sh#!/bin/shexec scala "$0" "$@"!#object HelloWorld e

2016-12-16 10:45:33 577

原创 集成学习-模型融合学习笔记

集成学习概念个人理解是按照不同的思路来组合基础模型,在保证准确度的同时也提升了模型防止过拟合的能力。 三种常见的集成学习框架:bagging,boosting和stackingboosting算法Adaboosting(串行-减少偏差)1,基分类器权重均分分布 (每个训练数据权重一样) 最终分类器G(x)=w1G(x1)+w2G(x2)+… 2,反复学习基本分类器 2.1由当前权值学习Gm

2016-12-10 11:33:48 12455

阿里平台MR

阿里御膳房平台MR示例代码-数加平台OPEN_MR示例

2016-06-16

阿里菜鸟仓库比赛说明

阿里菜鸟仓库比赛说明

2016-06-01

R语言的参考卡片

R参考卡片

2016-06-01

MATLAB神经网络原理与实例精解pdf

MATLAB神经网络原理与实例精解pdf书籍,留的是百度网盘,高清PDF,文件大于60MB,全书齐,神经网络学习必备

2016-03-17

Ambari安装

关于Ambari安装过程,亲测可用,Hadoop集群监控

2015-12-30

Hive编程指南

Hive编程指南 PDF 中文高清版

2015-10-30

HADOOP实战__陆嘉恒著

机械工业出版社 HADOOP实战 陆嘉恒著

2015-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除