- 博客(9)
- 收藏
- 关注
原创 收藏几个模型融合的网址
常见的 Ensemble 方法有这么几种:Bagging:使用训练数据的不同随机子集来训练每个 Base Model,最后进行每个 Base Model 权重相同的 Vote。也即 Random Forest 的原理。 Boosting:迭代地训练 Base Model,每次根据上一个迭代中预测错误的情况修改训练样本的权重。也即 Gradient Boosting 的原理。比 Bagging 效果
2017-06-14 20:57:50 526
原创 ForkJoinPool java1.7 多线程快排
import java.util.Arrays;import java.util.Random;import java.util.concurrent.*;class SortTask extends RecursiveAction { final int[] array; final int left; final int right; private int
2017-06-14 09:47:55 467
原创 特征选择初探
参考网站:http://blog.csdn.net/q383700092/article/details/53889936 一、以卡方检验为标准保留排名在前k个的特征#实例1from sklearn.feature_selection import SelectPercentile, SelectKBest, f_classif, f_regressiondef feature_select(
2017-06-12 21:35:37 366
原创 python 多线程编程
参考网址:http://www.cnblogs.com/tkqasn/p/5701230.html#-*- coding:utf-8 -*-from multiprocessing import Poolfrom math import hypotfrom random import randomimport timedef f(x): return x[1]*x[0] #map映射多参数
2017-06-12 18:41:02 330
原创 sklearn-GridSearchCV,CV调节超参使用方法
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会
2017-06-10 00:12:46 112057 3
转载 python+matplot+pyplot画图
参考地址:http://blog.csdn.net/luoyexuge/article/details/49069225#encoding:utf-8 # pylab 是 matplotlib 面向对象绘图库的一个接口。它的语法和 Matlab 十分相近 import pandas as pd from ggplot import * import numpy as np
2017-06-06 20:37:42 1898
原创 使用idea开发storm
以前用Eclipse开发Storm,测试版本,现在使用idea这款IDE开发storm。Idea版本:storm 中的project就是Eclipse中的workspace; storm中的module就是Eclipse中的project。第一步:引入Eclipse的storm开发包file -> new -> project from new existing sourc
2017-06-01 16:28:14 5100 1
原创 git使用笔记
廖雪峰参考网站:http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/第一步:初始化本地库在需要加入本地库的本地目录中执行:$ git init这时会在该目录下生成一个隐藏的.git文件夹第二步:添加本地文件到仓库(还没提交到本地仓库)$ git ad
2017-06-01 10:20:39 471
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人