自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shuimu12345678的专栏

shuimu学习记录

  • 博客(92)
  • 资源 (2)
  • 收藏
  • 关注

原创 特征工程之特征的好坏

一. 问题 特征的好坏衡量有很多的方法,如: 1. 单特征AUC 2. 信息增益,信息增益率,gini index 3. 相关系数 (label连续值) 但是,有些特征是低召回高精准的,即决策树中的某1子树集合很小很纯,另外1子树集合较大不纯。如类似于@svenzhou同学举得例子: 优惠券标签 1– 覆盖率30%, ctr 66.7%

2016-08-05 01:25:49 4661

原创 欢迎使用CSDN-markdown编辑器

详情见百度脑图.

2016-07-31 23:26:05 421

原创 shell运行输出运行记录

sh -x 可以输出运行记录,很方便。

2016-06-20 18:59:02 946

原创 hive with as

hive 可以用with as的方法把表加入内存,其他语句可以随时使用。with q1 as (select * from src where key= ‘5’),q2 as (select * from src s2 where key = ‘4’)select * from q1 union all select * from q2;

2016-06-13 09:52:38 20494 3

原创 文章标题

使用 Ctrl+R 搜索历史Ctrl+R 是我经常使用的一个快捷键。此快捷键让你对命令历史进行搜索,对于想要重复执行某个命令的时候非常有用。当找到命令后,通常再按回车键就可以执行该命令。如果想对找到的命令进行调整后再执行,则可以按一下左或右方向键。

2016-06-12 15:17:54 380

原创 数据抽样

数据抽样,每隔100行抽取一行: awk ‘{if(NR%100 ==1) print $0}’ msg > target_file

2016-05-30 11:13:59 439

原创 欢迎使用CSDN-markdown编辑器

今天听猪哥讲了ctr预估的auc计算部分,一个有趣的公式: –公式1 查了查(参考1)是和Wilcoxon-Mann-Witney Test有关,即auc=“测试任意给一个正类样本和一个负类样本,正类样本的score有多大的概率大于负类样本的score”,终于找到了auc的物理意义,不再是在tpr和fpr的曲线下徘徊。 按照上面的理论具体的auc的计算,可以参考上面给的公式

2016-04-23 02:52:18 412

原创 欢迎使用CSDN-markdown编辑器

对偶问题在SVM中有一个对偶的变换,在使用核函数的时候,需要用到其来简化算法。现把它列出来,感觉理解起来比较好玩。这个maxmin和minmax是对偶问题,现在形象解释下≤号的原因。 假如说, 假如有n个国家,L表示国家中人的高度,那么, maxmin表示所有国家的最矮的人里面最高的那个人的高度; minmax表示所有国家的最高的人里面最矮的高度。 显然,maxmi

2015-12-22 20:39:42 491

原创 像高三一样

要想生活过得去,每天都要像高三一样努力!

2015-07-12 13:34:56 440

原创 欢迎使用CSDN-markdown编辑器

智商就是这个鸟样子了,不逼着自己去搞成第一名,不断地学习,就可以了!

2015-06-19 00:14:32 494

原创 python simhash

python就有simhash的包,但是我还是想自己写一个。

2015-02-07 02:22:47 2107

原创 好文章-地址

机器学习路径:http://python.jobbole.com/80981/

2015-01-30 13:36:27 494

原创 年终奖

想起来年终奖只有半个月后,我就不开心。

2015-01-30 10:47:29 541

原创 reduce 两遍

可以通过cache的方式达到reduce运行两次,但是cache有没有爆的可能呢?或者说,hadoop shuffle完了以后,会不会给每台机器分配内存容量内的数据呢?

2014-12-19 20:56:03 477

原创 睡觉,睡觉

决定以后12点之前睡觉,然后8点起床,不知道能不能坚持,哈哈!

2014-12-15 01:57:36 457

原创 hadoop失败

hadoop失败了,有几天成功,有几天失败,我想加一个try, except试试。之前一直不知道,为什么要有try, except这种语法结构,现在终于理解,其存在的道理了:对于脏数据,有很强大的过滤能力。

2014-12-15 01:56:20 545

原创 生活想法

有时候,就是喜欢写点儿什么,没有理由,就是喜欢。

2014-12-15 01:53:34 516

原创 user-cf算法思考-K值的确定

在user-cf的过程中,考虑如下的case:

2014-11-01 21:50:54 1499

原创 user-cf的理解-初衷

什么是user-cf?user-cf是

2014-11-01 21:01:15 1987

原创 工作是新的开始

工作以后,

2014-11-01 20:11:18 540

原创 DM重要资源网址

有几个介绍LDA的网址不错,记录下来:

2014-08-05 10:53:14 741

原创 梅森旋转法产生随机数

直接贴代码了:#include #include typedef unsigned long uint32;#define N (624) // length of state vector#define M (397)#define K (0x9908B0DFU) // a magic cons

2014-06-26 21:27:31 3135 1

原创 beta分布

为了解beta分布,首先提出问题:

2014-06-19 17:55:13 868

原创 从伽马函数到Dirichilet分布

伽马函数:伽马函数是阶乘的拓展,其表达式为据说利用分布积分可以得到(具体方法不知):那么很容易的到自然数域中的:Beta函数:学习伽马函数是为学习Beta函数准备的,Beta函数的表达式为Beta函数是为了Beta分布做准备,Beta分布的定义式为:考虑一个问题,做了n次试验抛硬币试验(硬币前后不均匀,即正面反面概率不一定为0.5

2014-06-15 19:25:42 2280

原创 二项分布和多项分布

二项分布:做n

2014-06-14 19:34:21 27555 1

原创 LDA学习

LDA就像一座大山,需要慢慢爬。

2014-06-14 18:46:42 1051 4

原创 微信存在的理由

有时候在思考,为何腾讯有QQ了还创造出微信呢?微信和QQ艺阳不都是在线聊天工具吗?发现了微信有其特点:微信是为了替代短信而生的,所以一定要省流量,免打扰,点对点

2014-03-08 16:14:48 849

原创 SVD的理解

SVD:singular valuedecomposition 奇异值分解本文总结自网络,详情见最后的参考链接:奇异值分解可以实现降维的作用,例如讲A分成X*B*Y三部分:  如图所示,A元素个数是100万乘以50万,总共5千亿。而存储X,B,Y三个矩阵只需要1.5个亿个元素,是原来的三千分之一,相应的存储量和计算量都小了三个数量级。 假设M是n*n的奇

2014-02-21 10:45:12 4066 1

原创 matlab-runtime error问题

当matlab安装完毕之后,存在runtime error,需要点击属性把兼容模式设置为windows 2000,再运行就可以了。

2013-12-20 16:43:48 874

原创 topcoder-srm-594

250pt:题目:有n*m的矩阵,从某点(x,y)开始,下一次移动到点((x+1)%n, (y+1)%m),问能否遍历矩阵中的所有点。分析:如果n和m互质,那么可以走遍,否则不能走遍。500pt:题目:略。分析:取所有A[i]和B[j]作为组合,A的数组长度为n,B的为m,然后查询查询A和B中有多少重复的数字,设为n,那么结果是max( n+m-r);100

2013-10-31 21:48:42 770

原创 topcoder-595-div2

250pt:题目:给定一个字符串,每一次操作可以从头部或尾部删除一个字符,问至少删多少剩下的字符全部相同。分析:原题等价于求 “总长度” 减去 “该字符串中的最长的连续字符个数”。500pt:题目:有两种颜色,给定两个数组L[]和R[],有一排气球,第i次可以染从L[i]到R[i]的颜色,问一共有多少种染法。分析:直接模拟然后统计不同的区域的个数n,结果是pow(2,n

2013-10-31 19:05:07 610

原创 MFC应用程序闪烁的问题

在软件综合实习的时候,遇到了写的mfc应用程序闪烁的问题,即:当放大缩小窗口的时候,重绘操作速度很慢,导致了mfc应用程序不流畅。  假设新图需要画part_1,part_2,part_3三部分,如果采用直接画图的方法,就会相应三次WM_PAINT消息,每一次响应WM_PAINT消息,都要调用一次OnDraw()函数:首先用白色画布覆盖,然后再白色画布上画新图。因此频繁调用WM_PAINT会造

2013-09-08 10:52:14 894

原创 问题:fatal error LNK1169: 找到一个或多个多重定义的符号

可能是由于实现函数写在了头文件里,将函数实现的代码改到.cpp中就可以了。

2013-07-06 14:22:19 1317

原创 资源视图在另一编辑器中

今天遇到了一个问题,资源视图在另一个编辑器中打开,所以不能加载。之前都是打开了另外一个工程文件,这次只有一个工程,baidu之后发现,是由于在这个工程的编辑框中打开了该资源,所以说不能加载,把对应的编辑框关掉重启工程就可以了。

2013-07-05 22:46:43 1448

原创 北航上机复试2012-第一题-第二题-第三题

【问题描述】某些整数能分解成若干个连续整数的和的形式,例如15 = 1 + 2+3+4+5 15 = 4 + 5 + 615 = 7 + 8某些整数不能分解为连续整数的和,例如:16输入:一个整数N(N 输出:整数N对应的所有分解组合,按照每个分解中的最小整数从小到大输出,每个分解占一行,每个数字之间有一个空格(每行最后保留一个空格);如果没有任何分解组合,则输出NON

2013-07-02 01:26:38 1619

原创 poj-1700

题目链接题意简述: 有N个人要过河,只有一艘船最多承载两个人,第i个人过河有时间T_i,两个人一组过河的时间由较长那个人的时间确定,不要忘记算船回来的时间,求过河的最短时间。题意分析:如果有很多人,考虑最慢的那个人应该如何过河,从河岸A到河岸B(记做A->B): 如果他和某一个人组队过河,那么最佳人选是次慢的那个人(A->B),对于船的返回,最好是让最快的那个人划回去(B->A)。那么

2013-05-30 22:06:37 723

原创 二分

今日有幸见到一种二分的写法,甚是惊奇:LL bs(LL n, LL k) {//找到满足结果大于等于n的最小的值 LL l = 1, r = k + 1; while(l + 1 < r) { LL m = (l+r) >> 1; if( (k+m) * (k+1-m) >= 2*n ) l = m; else r = m;

2013-03-24 16:51:53 784

原创 codechef_Home » Compete » January Challenge 2013 » The Minimum Number Of Moves

简单模拟,收获是学会了min_element和max_element的用法,注意程序返回的是一个指针,因此加*才能够得到具体的最大值和最小值。#include#include#include#include#include#include#include#include#include#include#include#include#include#inclu

2013-01-06 20:36:42 481

原创 POJ--Eqs

题目要求:给出五个数字x1, x2, x3, x4, x5求满足等式的x的值有多少种组合,其中x∈[-50, 0) ∪ (0, 50]思路:首先考虑暴力的情况是五重for循环就是10亿的复杂度,一定会TLE,但是如果把他们分成两部分,第一部分求得x1,x2,x3的所有组合,然后求得x4,x5的所有组合,想对应的组合使用乘法就可以了。计算量:10000000刚刚好。#include#inc

2013-01-05 16:03:56 654

原创 POJ——Wormholes

原始的Bellman--ford算法。#include #include #include #include #include #include using namespace std;const int INF_DIST = 1 const int maxn_node = 510;struct edge{    int weight,

2013-01-03 13:42:41 475

cf代码——gxp编词儿

先排序算出某一长度的边有几条,放到tong[],再用krus求某一长度的边需要几条,xu[],再用枚举的方法举例出某一长度的符合条件为几条(再枚举下一种边时。把边覆盖上),分别为f1,f2,f3……再把f1,f2,f3相乘……(当然乘的过程不要忘了mod31011

2012-09-22

CF题解DIV2

Oops! Google Chrome could not connect to codeforces.com Try reloading: codeforces.­com Additional suggestions: Access a cached copy of codeforces.­com Search on Google:

2012-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除