算法
文章平均质量分 74
yihucha166
这个作者很懒,什么都没留下…
展开
-
PKU ACM 1000~1010解题总结
1001 求高精度幂分析: 其实也就是高精度,大数值的乘法。方法: 实际使用的是通过字符数组来保存输入和输出,并利用字符数组模拟手算乘法的步奏来实现高精度的乘法。难点: 思路需清楚,小数点的位置要处理好,可以考虑把小数和整数部分分开计算。1002 统计重复电话号码分析: 需要替换字母并统计重复方法: 1.先用了一个包含所有号码的大数组来统计重复的号码O(N),结原创 2008-02-22 19:03:00 · 2019 阅读 · 2 评论 -
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 六
WangBen 20110916 Beijing Part 4 - Clustering by Color用颜色聚类We can also turnthe numbers into colors. For instance, here is a color翻译 2011-09-20 21:15:29 · 2766 阅读 · 0 评论 -
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 二
WangBen 20110916 Beijing A Small Example一个例子As a small example, I searched for books using the word “investing” at Amazon.com and t翻译 2011-09-16 20:07:15 · 3637 阅读 · 0 评论 -
gbrt(gbdt)源码分享
GBDT(Gradient Boost Decision Tree) 目前是工业界最为流行的机器学习工具之一,我最近依据一些开源实现,写了一个精简版的gbrt,也就是(Gradient Boost Regression Tree),因为在我们的应用中,基本上都是在解决rank的问题,一般只需要regression就可以了。这个版本主要的特点就是代码逻辑简单,并且使用了tbb的并行库对于多核原创 2013-01-22 14:54:42 · 8380 阅读 · 9 评论 -
主题模型 LDA 源码分享
转载请注明来源:http://blog.csdn.net/yihucha166/article/details/9046835Latent Dirichlet Allocation(LDA)是目前业界最为流行的机器学习方法之一,这里用C++实现了一个as-lda版本,使用了非对称的先验设置,随着主题数的增加,主题分布上比传统模型更加稳定,减少因为主题数量大而导致大量小众主题,参考文献《Reth原创 2013-06-07 13:51:05 · 7139 阅读 · 3 评论 -
weak-and算法原理演示(wand)
推荐一个在信息检索中用到的weak-and算法,这个算法在广告系统中有成熟的应用。 简单来说,一般我们在计算文本相关性的时候,会通过倒排索引的方式进行查询,通过倒排索引已经要比全量遍历节约大量时间,但是有时候仍然很慢。原因是很多时候我们其实只是想要top n个结果,一些结果明显较差的也进行了复杂的相关性计算,而weak-and算法通过计算每个词的贡献上限来估计文档的相关性上限,从而建立原创 2013-01-14 11:38:28 · 8040 阅读 · 2 评论 -
Everything You Wanted to Know About Machine Learning
Everything You Wanted to Know About Machine Learning翻译了理解机器学习的10个重要的观点,加入了自己的理解,这些原则在大部分情况下也许是这样,但是具体问题具体分析才是王道,不加思索的应用只能是一知半解。所以张小龙才说‘我说的都是错的’。 note by 王犇1. How Does Machine Learning Work翻译 2014-06-25 15:37:03 · 1447 阅读 · 0 评论 -
机器学习评价方法之NRIG
在工业界,逻辑回归是很常用的模型,一般大家在用逻辑回归做机器学习排序或者广告预估时常用AUC来判断排序的效果,逻辑回归是概率模型,除了排序的指标之外,有时会出现AUC比较好,但是概率拟合较差(很有可能是收敛的不好),在广告GSP(Generalized second-price auction)竞价模式中尤为重要,所以我们还希望验证模型对真实概率的拟合程度,这时就需要其他指标来衡量。最常见原创 2015-11-17 15:53:06 · 3005 阅读 · 0 评论 -
Spark上如何做分布式AUC计算
by 王犇 20160115AUC是分类模型常用的评价手段,目前的Spark mllib里面evaluation包中所提供的auc方法是拿到了roc曲线中的各个点之后再进行auc的计算,但是实际应用场景中(以逻辑回归为例),我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算,输入可能是(label, predict_score)这样的形式,mllib中提供的方案就不太适用原创 2016-01-15 14:54:03 · 9254 阅读 · 1 评论 -
sqrt引发的血案 牛顿法的应用
转自:http://www.cnblogs.com/pkuoliver/archive/2010/10/06/sotry-about-sqrt.html一个Sqrt函数引发的血案2010-10-06 17:13 by 码农1946, 29565 visits, 收藏,转载 2011-09-20 20:15:45 · 1347 阅读 · 0 评论 -
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 四
WangBen 20110916 Beijing Part 2 - Modify the Counts with TFIDF计算TFIDF替代简单计数In sophisticated Latent Semantic Analysis systems, th翻译 2011-09-20 20:55:27 · 4032 阅读 · 0 评论 -
斜对角线顺序填充矩阵(very useful in DP)
#includestdio.h>#define M 4#define N 5int a[M + 3][N + 3];int i,j;int main()...{//斜对角线方式顺序填充矩形 for(int k = M + N; k >= 0; k--) ...{ if(k >= M) j = k - M,i = k - j;原创 2008-05-11 13:43:00 · 1923 阅读 · 0 评论 -
list sort方法调研
stl中的list 是双向链表结构,最近用到其中的sort方法,文档中有这么两段:Sorts *this according tooperator. The sort is stable, that is, the relative order of equivalent elements is preserved. All iterators remain valid and con原创 2011-06-14 15:57:00 · 2305 阅读 · 0 评论 -
MapReduce 中文版论文
转自http://peopleyun.com/?p=890MapReduce 中文版论文18Aug之前已经给贴了GFS和BigTable的论文,今天就把Google三大利器之一MapReduce中文版论文也发一下,原文地址,中文版原址,并在这里谢谢译者Al转载 2011-09-18 15:46:41 · 1500 阅读 · 0 评论 -
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 五
WangBen 20110916 Beijing Part 3 - Usingthe Singular Value Decomposition使用奇异值分解Oncewe have built our (words by titles) matrix, we c翻译 2011-09-20 21:03:34 · 3868 阅读 · 3 评论 -
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 七
WangBen 20110916 Beijing Advantages, Disadvantages, and Applications of LSALSA的优势、劣势以及应用Latent SemanticAnalysis has many nice proper翻译 2011-09-20 21:18:37 · 3103 阅读 · 0 评论 -
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 一
Latent Semantic Analysis (LSA) Tutorial译:http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.htmlWangBen 2011-09-16 bei翻译 2011-09-16 20:03:48 · 9058 阅读 · 1 评论 -
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 三
WangBen 20110916 Beijing Part 1 - Creating the Count Matrix第一部分 - 创建计数矩阵The first step in Latent Semantic Analysis is to create thew翻译 2011-09-20 20:48:38 · 6744 阅读 · 0 评论 -
机器学习特征选择之卡方检验与互信息
by wangben @ beijing特征选择的主要目的有两点:1. 减少特征数量提高训练速度,这点对于一些复杂模型来说尤其重要2. 减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化(generalization),从而在测试集中表现较差。另外从模型复杂度的角度来看,特征越多模型的复杂度越高,也就越容易发生o原创 2016-02-09 16:27:05 · 21359 阅读 · 2 评论