算法_yihucha166的博客-CSDN博客

算法

关注

文章平均质量分 74

关注数：文章数：19 文章阅读量：100922 文章收藏量：54

作者: yihucha166

这个作者很懒，什么都没留下…

展开

PKU ACM 1000~1010解题总结

1001 求高精度幂分析：其实也就是高精度，大数值的乘法。方法：实际使用的是通过字符数组来保存输入和输出，并利用字符数组模拟手算乘法的步奏来实现高精度的乘法。难点：思路需清楚，小数点的位置要处理好，可以考虑把小数和整数部分分开计算。1002 统计重复电话号码分析：需要替换字母并统计重复方法： 1.先用了一个包含所有号码的大数组来统计重复的号码O（N），结

原创 2008-02-22 19:03:00 · 2019 阅读 · 2 评论
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍六

WangBen 20110916 Beijing Part 4 - Clustering by Color用颜色聚类We can also turnthe numbers into colors. For instance, here is a color

翻译 2011-09-20 21:15:29 · 2766 阅读 · 0 评论
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍二

WangBen 20110916 Beijing A Small Example一个例子As a small example, I searched for books using the word “investing” at Amazon.com and t

翻译 2011-09-16 20:07:15 · 3637 阅读 · 0 评论
gbrt（gbdt）源码分享

GBDT(Gradient Boost Decision Tree) 目前是工业界最为流行的机器学习工具之一，我最近依据一些开源实现，写了一个精简版的gbrt，也就是（Gradient Boost Regression Tree），因为在我们的应用中，基本上都是在解决rank的问题，一般只需要regression就可以了。这个版本主要的特点就是代码逻辑简单，并且使用了tbb的并行库对于多核

原创 2013-01-22 14:54:42 · 8380 阅读 · 9 评论
主题模型 LDA 源码分享

转载请注明来源：http://blog.csdn.net/yihucha166/article/details/9046835Latent Dirichlet Allocation（LDA）是目前业界最为流行的机器学习方法之一，这里用C++实现了一个as-lda版本，使用了非对称的先验设置，随着主题数的增加，主题分布上比传统模型更加稳定，减少因为主题数量大而导致大量小众主题，参考文献《Reth

原创 2013-06-07 13:51:05 · 7139 阅读 · 3 评论
weak-and算法原理演示（wand）

推荐一个在信息检索中用到的weak-and算法，这个算法在广告系统中有成熟的应用。简单来说，一般我们在计算文本相关性的时候，会通过倒排索引的方式进行查询，通过倒排索引已经要比全量遍历节约大量时间，但是有时候仍然很慢。原因是很多时候我们其实只是想要top n个结果，一些结果明显较差的也进行了复杂的相关性计算，而weak-and算法通过计算每个词的贡献上限来估计文档的相关性上限，从而建立

原创 2013-01-14 11:38:28 · 8040 阅读 · 2 评论
Everything You Wanted to Know About Machine Learning

Everything You Wanted to Know About Machine Learning翻译了理解机器学习的10个重要的观点，加入了自己的理解，这些原则在大部分情况下也许是这样，但是具体问题具体分析才是王道，不加思索的应用只能是一知半解。所以张小龙才说‘我说的都是错的’。 note by 王犇1. How Does Machine Learning Work

翻译 2014-06-25 15:37:03 · 1447 阅读 · 0 评论
机器学习评价方法之NRIG

在工业界，逻辑回归是很常用的模型，一般大家在用逻辑回归做机器学习排序或者广告预估时常用AUC来判断排序的效果，逻辑回归是概率模型，除了排序的指标之外，有时会出现AUC比较好，但是概率拟合较差（很有可能是收敛的不好），在广告GSP（Generalized second-price auction）竞价模式中尤为重要，所以我们还希望验证模型对真实概率的拟合程度，这时就需要其他指标来衡量。最常见

原创 2015-11-17 15:53:06 · 3005 阅读 · 0 评论
Spark上如何做分布式AUC计算

by 王犇 20160115AUC是分类模型常用的评价手段，目前的Spark mllib里面evaluation包中所提供的auc方法是拿到了roc曲线中的各个点之后再进行auc的计算，但是实际应用场景中（以逻辑回归为例），我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算，输入可能是（label, predict_score）这样的形式，mllib中提供的方案就不太适用

原创 2016-01-15 14:54:03 · 9254 阅读 · 1 评论
sqrt引发的血案牛顿法的应用

转自：http://www.cnblogs.com/pkuoliver/archive/2010/10/06/sotry-about-sqrt.html一个Sqrt函数引发的血案2010-10-06 17:13 by 码农1946, 29565 visits, 收藏,

转载 2011-09-20 20:15:45 · 1347 阅读 · 0 评论
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍四

WangBen 20110916 Beijing Part 2 - Modify the Counts with TFIDF计算TFIDF替代简单计数In sophisticated Latent Semantic Analysis systems, th

翻译 2011-09-20 20:55:27 · 4032 阅读 · 0 评论
斜对角线顺序填充矩阵（very useful in DP）

#includestdio.h>#define M 4#define N 5int a[M + 3][N + 3];int i,j;int main()...{//斜对角线方式顺序填充矩形 for(int k = M + N; k >= 0; k--) ...{ if(k >= M) j = k - M,i = k - j;

原创 2008-05-11 13:43:00 · 1923 阅读 · 0 评论
list sort方法调研

stl中的list 是双向链表结构，最近用到其中的sort方法，文档中有这么两段：Sorts *this according tooperator. The sort is stable, that is, the relative order of equivalent elements is preserved. All iterators remain valid and con

原创 2011-06-14 15:57:00 · 2305 阅读 · 0 评论
MapReduce 中文版论文

转自http://peopleyun.com/?p=890MapReduce 中文版论文18Aug之前已经给贴了GFS和BigTable的论文，今天就把Google三大利器之一MapReduce中文版论文也发一下，原文地址，中文版原址，并在这里谢谢译者Al

转载 2011-09-18 15:46:41 · 1500 阅读 · 0 评论
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍五

WangBen 20110916 Beijing Part 3 - Usingthe Singular Value Decomposition使用奇异值分解Oncewe have built our (words by titles) matrix, we c

翻译 2011-09-20 21:03:34 · 3868 阅读 · 3 评论
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍七

WangBen 20110916 Beijing Advantages, Disadvantages, and Applications of LSALSA的优势、劣势以及应用Latent SemanticAnalysis has many nice proper

翻译 2011-09-20 21:18:37 · 3103 阅读 · 0 评论
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍一

Latent Semantic Analysis (LSA) Tutorial译：http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.htmlWangBen 2011-09-16 bei

翻译 2011-09-16 20:03:48 · 9058 阅读 · 1 评论
Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍三

WangBen 20110916 Beijing Part 1 - Creating the Count Matrix第一部分 - 创建计数矩阵The first step in Latent Semantic Analysis is to create thew

翻译 2011-09-20 20:48:38 · 6744 阅读 · 0 评论
机器学习特征选择之卡方检验与互信息

by wangben @ beijing特征选择的主要目的有两点：1. 减少特征数量提高训练速度，这点对于一些复杂模型来说尤其重要2. 减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化（generalization），从而在测试集中表现较差。另外从模型复杂度的角度来看，特征越多模型的复杂度越高，也就越容易发生o

原创 2016-02-09 16:27:05 · 21359 阅读 · 2 评论

算法

作者: yihucha166

PKU ACM 1000~1010解题总结

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 六

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 二

gbrt（gbdt）源码分享

主题模型 LDA 源码分享

weak-and算法原理演示（wand）

Everything You Wanted to Know About Machine Learning

机器学习评价方法之NRIG

Spark上如何做分布式AUC计算

sqrt引发的血案 牛顿法的应用

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 四

斜对角线顺序填充矩阵（very useful in DP）

list sort方法调研

MapReduce 中文版论文

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 五

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 七

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 一

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 三

机器学习特征选择之卡方检验与互信息

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍六

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍二

sqrt引发的血案牛顿法的应用

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍四

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍五

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍七

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍一

Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍三