自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Unicorn

Work Hard Play Harder weibo@王犇unicorn

  • 博客(72)
  • 资源 (4)
  • 收藏
  • 关注

原创 机器学习特征选择之卡方检验与互信息

by wangben  @ beijing特征选择的主要目的有两点:1.      减少特征数量提高训练速度,这点对于一些复杂模型来说尤其重要2.      减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化(generalization),从而在测试集中表现较差。另外从模型复杂度的角度来看,特征越多模型的复杂度越高,也就越容易发生o

2016-02-09 16:27:05 21353 2

原创 Spark上如何做分布式AUC计算

by 王犇 20160115AUC是分类模型常用的评价手段,目前的Spark mllib里面evaluation包中所提供的auc方法是拿到了roc曲线中的各个点之后再进行auc的计算,但是实际应用场景中(以逻辑回归为例),我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算,输入可能是(label, predict_score)这样的形式,mllib中提供的方案就不太适用

2016-01-15 14:54:03 9249 1

原创 机器学习评价方法之NRIG

在工业界,逻辑回归是很常用的模型,一般大家在用逻辑回归做机器学习排序或者广告预估时常用AUC来判断排序的效果,逻辑回归是概率模型,除了排序的指标之外,有时会出现AUC比较好,但是概率拟合较差(很有可能是收敛的不好),在广告GSP(Generalized second-price auction)竞价模式中尤为重要,所以我们还希望验证模型对真实概率的拟合程度,这时就需要其他指标来衡量。最常见

2015-11-17 15:53:06 3001

转载 What is success if you don't know your main goal in life?

from James AltucherI thought I was done with the hard work of being a human being. I sold my first company for $15 million and I knew I was finished with all the hard work. I had achieved a goal.

2014-12-10 15:35:49 1476

翻译 Everything You Wanted to Know About Machine Learning

Everything You Wanted to Know About Machine Learning翻译了理解机器学习的10个重要的观点,加入了自己的理解,这些原则在大部分情况下也许是这样,但是具体问题具体分析才是王道,不加思索的应用只能是一知半解。所以张小龙才说‘我说的都是错的’。 note by 王犇1. How Does Machine Learning Work

2014-06-25 15:37:03 1445

转载 如何删除Amazon (kindle) 云端文件

要求:使用chrome浏览器或者搜狗浏览器的“高速”模式。firefox等浏览器我没有测试过,理论上适用;搜狗的“兼容”模式实测无效(应该是IE内核版本过低,对javascript的支持有问题)。另外如果有人第一次点击书签之后没有出现复选框,请检查是否禁用了网页的javascript脚本。方法:在收藏夹中添加一个新的书签,标题随意起,只要你认得就行;地址栏中粘贴如下代码:javascr

2013-08-25 23:15:20 7760

原创 如何设置kindle推送,如何推送网页到kindle

如何在亚马逊中国使用kindle推送,如何通过kindlemii推送网页到kindle:1. 了解你的kindle账号登陆amazon.cn之后,在amazon.cn的"管理我的Kindle"页面,选择"个人文档设置",或者点击这里在"〖发送至Kindle〗电子邮箱"下可以看到你的Kindle接收地址(用于接收文档的邮箱地址,亚马逊会把发送到该邮箱的邮件附件推送到你的设备)。

2013-08-18 11:47:45 26703 2

原创 主题模型 LDA 源码分享

转载请注明来源:http://blog.csdn.net/yihucha166/article/details/9046835Latent Dirichlet Allocation(LDA)是目前业界最为流行的机器学习方法之一,这里用C++实现了一个as-lda版本,使用了非对称的先验设置,随着主题数的增加,主题分布上比传统模型更加稳定,减少因为主题数量大而导致大量小众主题,参考文献《Reth

2013-06-07 13:51:05 7134 3

原创 gbrt(gbdt)源码分享

GBDT(Gradient Boost Decision Tree) 目前是工业界最为流行的机器学习工具之一,我最近依据一些开源实现,写了一个精简版的gbrt,也就是(Gradient Boost Regression Tree),因为在我们的应用中,基本上都是在解决rank的问题,一般只需要regression就可以了。这个版本主要的特点就是代码逻辑简单,并且使用了tbb的并行库对于多核

2013-01-22 14:54:42 8377 9

原创 weak-and算法原理演示(wand)

推荐一个在信息检索中用到的weak-and算法,这个算法在广告系统中有成熟的应用。 简单来说,一般我们在计算文本相关性的时候,会通过倒排索引的方式进行查询,通过倒排索引已经要比全量遍历节约大量时间,但是有时候仍然很慢。原因是很多时候我们其实只是想要top n个结果,一些结果明显较差的也进行了复杂的相关性计算,而weak-and算法通过计算每个词的贡献上限来估计文档的相关性上限,从而建立

2013-01-14 11:38:28 8037 2

原创 Protocal Buffer 2.3.0使用注意事项

备忘 1. string默认不支持gbk,用bytes类型代替,传递二进制2. 非string类型的序列化,反序列化: bool SerializeToArray(void * buf, int & len)//len长度字段 需要传入可用buf大小,若太小 会失败 { bool bret = pb_obj.SerializeToArray(buf,

2011-11-22 16:38:30 1654

翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 七

WangBen 20110916 Beijing Advantages, Disadvantages, and Applications of LSALSA的优势、劣势以及应用Latent SemanticAnalysis has many nice proper

2011-09-20 21:18:37 3101

翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 六

WangBen 20110916 Beijing Part 4 - Clustering by Color用颜色聚类We can also turnthe numbers into colors. For instance, here is a color

2011-09-20 21:15:29 2763

翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 五

WangBen 20110916 Beijing Part 3 - Usingthe Singular Value Decomposition使用奇异值分解Oncewe have built our (words by titles) matrix, we c

2011-09-20 21:03:34 3866 3

翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 四

WangBen 20110916 Beijing Part 2 - Modify the Counts with TFIDF计算TFIDF替代简单计数In sophisticated Latent Semantic Analysis systems, th

2011-09-20 20:55:27 4030

翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 三

WangBen 20110916 Beijing Part 1 - Creating the Count Matrix第一部分 - 创建计数矩阵The first step in Latent Semantic Analysis is to create thew

2011-09-20 20:48:38 6741

转载 hadoop streaming 编程

转自:http://dongxicheng.org/mapreduce/hadoop-streaming-programming/ 注:0.21.0中 generic command options 中的的参数都需要在streaming options的前面才不会报错

2011-09-20 20:23:25 1848

转载 sqrt引发的血案 牛顿法的应用

转自:http://www.cnblogs.com/pkuoliver/archive/2010/10/06/sotry-about-sqrt.html一个Sqrt函数引发的血案2010-10-06 17:13 by 码农1946, 29565 visits, 收藏,

2011-09-20 20:15:45 1346

转载 MapReduce 中文版论文

转自http://peopleyun.com/?p=890MapReduce 中文版论文18Aug之前已经给贴了GFS和BigTable的论文,今天就把Google三大利器之一MapReduce中文版论文也发一下,原文地址,中文版原址,并在这里谢谢译者Al

2011-09-18 15:46:41 1497

原创 ubuntu8.10更新源 以及scipy numpy的安装

ubuntu 8.10 比较老了 更新源也比较难找目前好用的是cn99:deb http://ubuntu.cn99.com/ubuntu/ hardy main restricted universe multiversedeb http://ubuntu.cn99

2011-09-18 11:44:52 2029

翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 二

WangBen 20110916 Beijing  A Small Example一个例子As a small example, I searched for books using the word “investing” at Amazon.com and t

2011-09-16 20:07:15 3633

翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 一

Latent Semantic Analysis (LSA) Tutorial译:http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.htmlWangBen 2011-09-16 bei

2011-09-16 20:03:48 9055 1

原创 list sort方法调研

stl中的list 是双向链表结构,最近用到其中的sort方法,文档中有这么两段:Sorts *this according tooperator. The sort is stable, that is, the relative order of equivalent elements is preserved. All iterators remain valid and con

2011-06-14 15:57:00 2305

原创 通过函数指针调用对象内部方法

知道这个就可以实现 c++中的closure(http://www.cppblog.com/sleepwom/archive/2011/04/06/143489.html) #include using namespace std;class MyClass { public: void PrintName() {

2011-06-09 11:34:00 861

转载 How to be a Star Engineer

<br />元智资工实验室的一篇翻译文章 [How to be a Star Engineer]<br /><br />很有启发的文章,与大家分享。 <br />How to be a Star Engineer<br />Robert E. Kelley, Carnegie Mellon University<br /><br />Robert E. Kelley, "How to be a star engineer," IEEE Spectrum, pp. 51-58, Oct. 1999.<br /

2010-12-13 13:02:00 895

原创 链接装载与库《程序员的自我修养》 之 全局符号冲突问题

<br /><br />链接装载与库《程序员的自我修养》之全局符号冲突问题<br /> 1.由强符号和弱符号引起的全局符号冲突<br />强符号:编译器默认函数和初始化了的全局变量<br />弱符号:未初始化的全局变量为弱符号(也可以通过gcc的__attribute__((weak))指定)<br /> <br />冲突的例子:如果我们在目标文件A和目标文件B都定义了一个全局整形变量g_variable,并将它们都初始化,这样在链接时链接器就会报multipledefinition的错误,这种错误就是

2010-11-28 17:35:00 1321

转载 mutable 关键字

<br />mutable 可以用来指出,即使结构或者类变量为const,其某个成员也可以被修改<br />  在c++的类中, 如果一个函数被const 修饰,那么它将无法修改其成员变量的,但是如果这个成员变量是被mutable修饰的话,则可以修改。  <br />例如  <br />struct data{  char name[30];  mutable int accesses;   ....   };   const data veep = {"david";,0,

2010-09-11 12:13:00 591

转载 讲讲volatile的作用

转载,原文地址是:http://blog.21ic.com/user1/2949/archives/2007/35599.html<br /><br />一个定义为volatile的变量是说这变量可能会被意想不到地改变,这样,编译器就不会去假设这个变量的值了。精确地说就是,优化器在用到这个变量时必须每次都小心地重新读取这个变量的值,而不是使用保存在寄存器里的备份。下面是volatile变量的几个例子: <br />    1). 并行设备的硬件寄存器(如:状态寄存器) <br />    2

2010-09-11 12:05:00 444

原创 linux下ffmpeg 手机视频转换总结

 ffmpeg版本:0.5.1 flv -> mp4  ->3gp #截图:./ffmpeg -i 视频文件 -y -ss 截图时间 -vframes 1 -f image2 -s 128x96 目标文件名;#生成预览版:./ffmpeg -i out.3gp -ss 00:00:00 -t 00:00:10 -s qcif -acodec copy -vcodec copy -y

2010-04-28 20:09:00 1974

原创 perl 点点滴滴 当然代替awk和sed

perl语言的优势在于语法灵活,正则表达式强大。它的缺点其实也在于语法过于灵活,正则强大而复杂。但是用来文本处理工具还是很不错的工具。最近翻了一下《精通正则表达式》,看到几个强大而实用的正则表达式用法:1. 利用 正则中的 环视 操作符来为数字添加分割逗号,例如:35,738,480$num = 35738480;$num =~ s!(?#这个式子主要可以用在统计邮

2010-04-28 20:00:00 2309

原创 URL的相对路径问题

对于url的相对路径问题一直都没太仔细弄清楚,这次好好的查了一下:在rfc1630中有这样一段话:The rules for the use of a partial name relative to the URI of the context are: If the scheme parts are different, the whole absolute URI must

2009-07-28 21:57:00 6528 1

转载 Linux查看内存

在Linux下查看内存我们一般用free命令:[root@scs-2 tmp]# free             total       used       free     shared    buffers     cachedMem:       3266180    3250004      16176          0     110652    2668236-/+ buffe

2009-06-03 13:47:00 6454

原创 ubuntu环境安装PHP+Apache

参考的是PHP与MYSQL程序设计(第三版) mysql已经是按照ubuntu的apt-get先装好的,所以剩下的任务就是装apache和PHP了去官网上下载的安装包,不再累述。一. Apache的安装1: $tar zxvf httpd-2_X_XX.tar.gz                 X代表下载的版本2:$cd httpd-2_X_XX3:$./confi

2009-06-01 20:40:00 1267

转载 用GDB调试程序

转:http://blog.csdn.net/haoel/archive/2003/07/02/2879.aspx作者:陈皓ID:haoel用GDB调试程序GDB概述————GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具。或许,各位比较喜欢那种图形界面方式的,像VC、BCB等IDE的调试,但如果你是在UNIX平台下做软件,你会发现GDB这个调试工具有比VC、BC

2009-04-14 18:36:00 3311

转载 我不会OOO,仍然可以XXX

 转载时请注明出处和作者联系方式文章出处:http://www.limodev.cn/blog作者联系方式:李先静  按照《审死官》里的读法,标题可以读着:答复:我不会圈圈圈,仍然可以叉叉叉。圈圈叉叉并不特指某个东西,而是一个通配符。代表诸如:我不懂COM原理,仍然调用COM组件。我不懂数据结构,仍然可以写程序。我记不得常用API,仍然照样用IDE。如此等等。我是个爱好和平的人

2009-02-12 11:47:00 1809 2

转载 单向链表的几道题

http://blog.csdn.net/wplxb/archive/2007/07/02/1675718.aspx---------------------------------------------------------------------------1. 转置单向链表 (也就是反序,注意链表的边界条件并考虑空链表)。#include struct listtype{    in

2008-06-27 19:59:00 1115

原创 斜对角线顺序填充矩阵(very useful in DP)

#includestdio.h>#define M 4#define N 5int a[M + 3][N + 3];int i,j;int main()...{//斜对角线方式顺序填充矩形    for(int k = M + N; k >= 0; k--)    ...{        if(k >= M) j = k - M,i = k - j;

2008-05-11 13:43:00 1923

原创 ?:操作符学习

 #includestdio.h>int p()...{ static int i = 0; i++; printf("i: %d ",i); return i;} int main()...{ int j = 0; j = j  p() ? j : p();//p()执行一次 /**//*int j = 1; j = j */ return 0;}

2008-04-26 10:40:00 577

原创 PKU ACM 1000~1010解题总结

1001 求高精度幂分析: 其实也就是高精度,大数值的乘法。方法: 实际使用的是通过字符数组来保存输入和输出,并利用字符数组模拟手算乘法的步奏来实现高精度的乘法。难点: 思路需清楚,小数点的位置要处理好,可以考虑把小数和整数部分分开计算。1002 统计重复电话号码分析: 需要替换字母并统计重复方法: 1.先用了一个包含所有号码的大数组来统计重复的号码O(N),结

2008-02-22 19:03:00 2019 2

原创 Dempster-Shafer Theory

Dempster-Shafer Theory        DS理论也被认为是信度函数理论,是主观概率(subjective probability)的贝叶斯理论的扩展。信度函数允许我们基于信度使用一个问题的概率来推导一个相关问题的概率。这些信度值可能有也可能没有概率的数学性质;他们与概率的差异大小将取决于这两个问题有多相关。       History..       DS理论基

2008-01-16 10:46:00 14395 4

我见过最好的vim使用手册

我见过最好的vim使用手册 尤其的最后的部分一定要看

2008-11-20

哈工大模式识别课件

想了解和学习模式识别的可以看一看

2008-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除