- 博客(92)
- 资源 (2)
- 收藏
- 关注
原创 特征工程之特征的好坏
一. 问题 特征的好坏衡量有很多的方法,如: 1. 单特征AUC 2. 信息增益,信息增益率,gini index 3. 相关系数 (label连续值) 但是,有些特征是低召回高精准的,即决策树中的某1子树集合很小很纯,另外1子树集合较大不纯。如类似于@svenzhou同学举得例子: 优惠券标签 1– 覆盖率30%, ctr 66.7%
2016-08-05 01:25:49
4820
原创 hive with as
hive 可以用with as的方法把表加入内存,其他语句可以随时使用。with q1 as (select * from src where key= ‘5’),q2 as (select * from src s2 where key = ‘4’)select * from q1 union all select * from q2;
2016-06-13 09:52:38
20630
1
原创 文章标题
使用 Ctrl+R 搜索历史Ctrl+R 是我经常使用的一个快捷键。此快捷键让你对命令历史进行搜索,对于想要重复执行某个命令的时候非常有用。当找到命令后,通常再按回车键就可以执行该命令。如果想对找到的命令进行调整后再执行,则可以按一下左或右方向键。
2016-06-12 15:17:54
417
原创 欢迎使用CSDN-markdown编辑器
今天听猪哥讲了ctr预估的auc计算部分,一个有趣的公式: –公式1 查了查(参考1)是和Wilcoxon-Mann-Witney Test有关,即auc=“测试任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本的score”,终于找到了auc的物理意义,不再是在tpr和fpr的曲线下徘徊。 按照上面的理论具体的auc的计算,可以参考上面给的公式
2016-04-23 02:52:18
447
原创 欢迎使用CSDN-markdown编辑器
对偶问题在SVM中有一个对偶的变换,在使用核函数的时候,需要用到其来简化算法。现把它列出来,感觉理解起来比较好玩。这个maxmin和minmax是对偶问题,现在形象解释下≤号的原因。 假如说, 假如有n个国家,L表示国家中人的高度,那么, maxmin表示所有国家的最矮的人里面最高的那个人的高度; minmax表示所有国家的最高的人里面最矮的高度。 显然,maxmi
2015-12-22 20:39:42
577
原创 reduce 两遍
可以通过cache的方式达到reduce运行两次,但是cache有没有爆的可能呢?或者说,hadoop shuffle完了以后,会不会给每台机器分配内存容量内的数据呢?
2014-12-19 20:56:03
513
原创 hadoop失败
hadoop失败了,有几天成功,有几天失败,我想加一个try, except试试。之前一直不知道,为什么要有try, except这种语法结构,现在终于理解,其存在的道理了:对于脏数据,有很强大的过滤能力。
2014-12-15 01:56:20
583
原创 梅森旋转法产生随机数
直接贴代码了:#include #include typedef unsigned long uint32;#define N (624) // length of state vector#define M (397)#define K (0x9908B0DFU) // a magic cons
2014-06-26 21:27:31
3205
原创 从伽马函数到Dirichilet分布
伽马函数:伽马函数是阶乘的拓展,其表达式为据说利用分布积分可以得到(具体方法不知):那么很容易的到自然数域中的:Beta函数:学习伽马函数是为学习Beta函数准备的,Beta函数的表达式为Beta函数是为了Beta分布做准备,Beta分布的定义式为:考虑一个问题,做了n次试验抛硬币试验(硬币前后不均匀,即正面反面概率不一定为0.5
2014-06-15 19:25:42
2329
原创 微信存在的理由
有时候在思考,为何腾讯有QQ了还创造出微信呢?微信和QQ艺阳不都是在线聊天工具吗?发现了微信有其特点:微信是为了替代短信而生的,所以一定要省流量,免打扰,点对点
2014-03-08 16:14:48
885
原创 SVD的理解
SVD:singular valuedecomposition 奇异值分解本文总结自网络,详情见最后的参考链接:奇异值分解可以实现降维的作用,例如讲A分成X*B*Y三部分: 如图所示,A元素个数是100万乘以50万,总共5千亿。而存储X,B,Y三个矩阵只需要1.5个亿个元素,是原来的三千分之一,相应的存储量和计算量都小了三个数量级。 假设M是n*n的奇
2014-02-21 10:45:12
4141
1
原创 matlab-runtime error问题
当matlab安装完毕之后,存在runtime error,需要点击属性把兼容模式设置为windows 2000,再运行就可以了。
2013-12-20 16:43:48
958
原创 topcoder-srm-594
250pt:题目:有n*m的矩阵,从某点(x,y)开始,下一次移动到点((x+1)%n, (y+1)%m),问能否遍历矩阵中的所有点。分析:如果n和m互质,那么可以走遍,否则不能走遍。500pt:题目:略。分析:取所有A[i]和B[j]作为组合,A的数组长度为n,B的为m,然后查询查询A和B中有多少重复的数字,设为n,那么结果是max( n+m-r);100
2013-10-31 21:48:42
808
原创 topcoder-595-div2
250pt:题目:给定一个字符串,每一次操作可以从头部或尾部删除一个字符,问至少删多少剩下的字符全部相同。分析:原题等价于求 “总长度” 减去 “该字符串中的最长的连续字符个数”。500pt:题目:有两种颜色,给定两个数组L[]和R[],有一排气球,第i次可以染从L[i]到R[i]的颜色,问一共有多少种染法。分析:直接模拟然后统计不同的区域的个数n,结果是pow(2,n
2013-10-31 19:05:07
651
原创 MFC应用程序闪烁的问题
在软件综合实习的时候,遇到了写的mfc应用程序闪烁的问题,即:当放大缩小窗口的时候,重绘操作速度很慢,导致了mfc应用程序不流畅。 假设新图需要画part_1,part_2,part_3三部分,如果采用直接画图的方法,就会相应三次WM_PAINT消息,每一次响应WM_PAINT消息,都要调用一次OnDraw()函数:首先用白色画布覆盖,然后再白色画布上画新图。因此频繁调用WM_PAINT会造
2013-09-08 10:52:14
1018
原创 问题:fatal error LNK1169: 找到一个或多个多重定义的符号
可能是由于实现函数写在了头文件里,将函数实现的代码改到.cpp中就可以了。
2013-07-06 14:22:19
1363
原创 资源视图在另一编辑器中
今天遇到了一个问题,资源视图在另一个编辑器中打开,所以不能加载。之前都是打开了另外一个工程文件,这次只有一个工程,baidu之后发现,是由于在这个工程的编辑框中打开了该资源,所以说不能加载,把对应的编辑框关掉重启工程就可以了。
2013-07-05 22:46:43
1511
原创 北航上机复试2012-第一题-第二题-第三题
【问题描述】某些整数能分解成若干个连续整数的和的形式,例如15 = 1 + 2+3+4+5 15 = 4 + 5 + 615 = 7 + 8某些整数不能分解为连续整数的和,例如:16输入:一个整数N(N 输出:整数N对应的所有分解组合,按照每个分解中的最小整数从小到大输出,每个分解占一行,每个数字之间有一个空格(每行最后保留一个空格);如果没有任何分解组合,则输出NON
2013-07-02 01:26:38
1673
原创 poj-1700
题目链接题意简述: 有N个人要过河,只有一艘船最多承载两个人,第i个人过河有时间T_i,两个人一组过河的时间由较长那个人的时间确定,不要忘记算船回来的时间,求过河的最短时间。题意分析:如果有很多人,考虑最慢的那个人应该如何过河,从河岸A到河岸B(记做A->B): 如果他和某一个人组队过河,那么最佳人选是次慢的那个人(A->B),对于船的返回,最好是让最快的那个人划回去(B->A)。那么
2013-05-30 22:06:37
777
原创 二分
今日有幸见到一种二分的写法,甚是惊奇:LL bs(LL n, LL k) {//找到满足结果大于等于n的最小的值 LL l = 1, r = k + 1; while(l + 1 < r) { LL m = (l+r) >> 1; if( (k+m) * (k+1-m) >= 2*n ) l = m; else r = m;
2013-03-24 16:51:53
824
原创 codechef_Home » Compete » January Challenge 2013 » The Minimum Number Of Moves
简单模拟,收获是学会了min_element和max_element的用法,注意程序返回的是一个指针,因此加*才能够得到具体的最大值和最小值。#include#include#include#include#include#include#include#include#include#include#include#include#include#inclu
2013-01-06 20:36:42
509
原创 POJ--Eqs
题目要求:给出五个数字x1, x2, x3, x4, x5求满足等式的x的值有多少种组合,其中x∈[-50, 0) ∪ (0, 50]思路:首先考虑暴力的情况是五重for循环就是10亿的复杂度,一定会TLE,但是如果把他们分成两部分,第一部分求得x1,x2,x3的所有组合,然后求得x4,x5的所有组合,想对应的组合使用乘法就可以了。计算量:10000000刚刚好。#include#inc
2013-01-05 16:03:56
699
原创 POJ——Wormholes
原始的Bellman--ford算法。#include #include #include #include #include #include using namespace std;const int INF_DIST = 1 const int maxn_node = 510;struct edge{ int weight,
2013-01-03 13:42:41
514
cf代码——gxp编词儿
2012-09-22
CF题解DIV2
2012-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人