排序:
默认
按更新时间
按访问量

Hadoop中的数据倾斜整理

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解.      在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就...

2017-08-07 11:03:45

阅读数:247

评论数:0

Hadoop相关知识整理

主要参考以下四篇博客内容: http://blessht.iteye.com/blog/2095675 http://blog.csdn.net/lifuxiangcaohui/article/details/23337905 http://www.cnblogs.com/voidy/p/41...

2017-08-02 21:39:14

阅读数:227

评论数:0

大白话解析模拟退火算法

一. 爬山算法 ( Hill Climbing )          介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。          爬山算法实现很简单,其主要缺点是会陷入局部最优解...

2017-07-20 16:35:26

阅读数:224

评论数:0

内存泄露如何调试

一、动态分配、回收内存是C/C++编程语言一个最强的特点,但是中国哲学家孙(Sun Tzu,我不知道是谁?那位知道?) 指出,最强的同时也是最弱的。这句话对C/C++应用来说非常正确,在内存处理出错的地方通常就是BUGS产生的地方。一个最敏感和难检测的BUG就是内 存泄漏-没有把前边分配的内存成...

2017-07-20 16:21:12

阅读数:345

评论数:0

梯度下降(Gradient Descent)小结

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度     在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出...

2017-07-20 16:04:05

阅读数:378

评论数:0

C++常用字符串分割方法

字符串切割的使用频率还是挺高的,string本身没有提供切割的方法,但可以使用stl提供的封装进行实现或者通过c函数strtok()函数实现。 1、通过stl实现 涉及到string类的两个函数find和substr:  1、find函数  原型:size_t find ( const str...

2017-07-11 16:21:06

阅读数:221

评论数:0

特征组合相关资源总结

组合特征较多时候是用在推荐系统或者CTR预估中,下面几篇博客大概讲解了其使用,但是并没有细化每步的具体实现。 https://www.qcloud.com/community/article/701728 http://www.jianshu.com/p/7445a7b94b45 h...

2017-07-10 11:23:56

阅读数:326

评论数:0

机器学习性能评估指标资料汇总

相关资料: http://blog.csdn.net/mousever/article/details/46944265 http://blog.csdn.net/l18930738887/article/details/50629409 http://www.cnblogs.com...

2017-07-09 12:06:29

阅读数:205

评论数:0

RF,GBDT,xgboost调参方法整理

1、RF调参方法参考: http://wakemeup.space/?p=187 http://blog.csdn.net/y0367/article/details/51501780 http://blog.csdn.net/sun_shengyun/article/details/5461...

2017-07-04 18:41:19

阅读数:3722

评论数:0

层次遍历二叉树-三种不同的方法

给定一棵二叉树,要求进行分层遍历,每层的节点值单独打印一行,下图给出事例结构: 对此二叉树遍历的结果应该是: 1, 2 , 3 4, 5, 6 7, 8 第一种方法,就是利用递归的方法,按层进行打印,我们把根节点当做第0层,之后层次依次增加,如果我们想打印第二层怎么办呢,利用递归...

2017-06-29 21:51:53

阅读数:220

评论数:0

N问GBDT(1-12答案)

1. 怎样设置单棵树的停止生长条件? 答:A. 节点分裂时的最小样本数 B. 最大深度 C. 最多叶子节点数 D. loss满足约束条件 2. 如何评估特征的权重大小? 答:a. 通过计算每个特征在训练集下的信息增益,最后计算每个特征信息增益与所有特征信息增益之和的比例为权...

2017-06-29 15:26:07

阅读数:638

评论数:0

GBDT算法整理

第一篇 Gradient Boost Decision Tree:    GBDT是一个应用很广泛的算法,可以用来做分类、回归。在很多的数据上都有不错的效果。GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gr...

2017-06-29 15:23:30

阅读数:7062

评论数:0

Adaboost 算法总结

Adaboost 算法实例解析 1 Adaboost的原理 1.1 Adaboost基本介绍        AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出...

2017-06-22 18:11:17

阅读数:337

评论数:0

STL中容器相等(equality)和等价(equivalence)的区别

STL中相等(equality)与等价(equivalence)的区别 1.相等(equality) 【无序数据】 相等关系是以operator ==为基础的。 a与b相等: a == b  例子:find,count,count_if等等大部分函数 2.等价(equivalence) ...

2017-06-10 22:26:13

阅读数:489

评论数:0

string与int转换

比较常用的转换方式: string转int: 例“123”转换为123: for(int i=0;i {     num=num*10+(str[i]-'0');//如果想转换为其它进制的数,则这里乘对应的进制进制就好。比如转换为16进制,则为...

2017-06-10 21:07:53

阅读数:138

评论数:0

卷积神经网络

卷积神经网络 自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互有增益。正文之前,...

2017-06-08 22:56:07

阅读数:215

评论数:0

sort与qsort排序方法整理

qsort排序: 一、对int类型数组排序  int num[100];  Sample:  int cmp ( const void *a , const void *b )  {  return *(int *)a - *(int *)b; //从小到大 }  ...

2017-06-08 17:37:34

阅读数:183

评论数:0

C++双重检查锁定模式(DCLP)的风险

多线程其实就是指两个任务一前一后或者同时发生。 1 简介 当你在网上搜索设计模式的相关资料时,你一定会找到最常被提及的一个模式:单例模式(Singleton)。然而,当你尝试在项目中使用单例模式时,一定会遇到一个很重要的限制:若使用传统的实现方法(我们会在下文解释如何实现),单例模式是...

2017-06-07 10:22:34

阅读数:172

评论数:0

C++11中的delete关键字

C++11 中,可在想要 “禁止使用” 的特殊成员函数声明后加 “= delete”(当然也可以声明为私有函数或者保护函数),而需要保留的加 "= default" 或者不采取操作 class LeafOfTree{ public:   LeafOfTree() = ...

2017-06-07 10:20:51

阅读数:1454

评论数:0

C++的单例模式与线程安全单例模式(懒汉/饿汉)

1 教科书里的单例模式   我们都很清楚一个简单的单例模式该怎样去实现:构造函数声明为private或protect防止被外部函数实例化,内部保存一个private static的类指针保存唯一的实例,实例的动作由一个public的类方法代劳,该方法也返回单例类唯一的实例。 class...

2017-06-07 10:19:19

阅读数:165

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭