pf1492536-CSDN博客

转载 Reservoir Sampling 蓄水池抽样

最先遇到这个问题是在面试题原始版有一个店老板, 他决定从每天光顾他的店的顾客中随机选出一个人, 在当天打烊时给这位顾客发去一份小礼品, 问怎样选才能保证随机 ( 顾客不是同时来, 所以没法让这一堆人站好随机挑, 而且每天会来多少人你不知道, 可能打烊前突然来一大拨人, 老板比较呆, 只能记住一两个人, 没法把所有人的信息都记录下来)抽象版有一个数据流输入过来, 请在数据

2013-07-01 15:00:47 722

转载用0-6的随机函数构造一个0-9的随机函数

原文地址：http://blog.sina.com.cn/s/blog_83e4ed0e0100yvi9.html面试给问到这道题了，可是答不出要点，于是乎上网搜了一下怎么干。我们要绝对随机得到0-9的一个随机数，那就首先通过0-6的绝对随机函数获得0-10*n（n>=1）的均匀分布数列。我们其实可以把它堪称一个排列组合问题。假设0-6的绝对随机函数为rand7()；我们通过r

2013-06-27 16:34:15 2050

原创 Kdd Cup 2013 track1总结

比赛地址：http://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge大概也折腾了一个多月吧，从最开始的兴奋到后面的折腾不动，失望，最后来总结一下。开始阶段完全小白，最好入手的办法用着basicline的代码，添加一两个新的特征，最后就折腾一下模型，这里说一下自己用的特征。1. 字符串距

2013-06-26 23:55:42 4385 2

原创连续子数组求和

一个整型数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和，求所有子数组的和的最大值，要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4, 7, 2, -5，那么最大的子数组为3, 10, -4, 7, 2，因此输出为该子数组的和18，#include#includeu

2013-06-06 00:17:34 803

原创特征选择(feature selection)

最近在做kdd cup 2013，特征倒是能yy出来不少，但是加到GBDT里面去效果就是不好，map反而下降了。所以想做一个feature selection，现有的特征也不是很多，三四十个，但是全用上效果比较差。特征选择严格来说也是模型选择中的一种。这里不去辨析他们的关系，重点说明问题。假设我们想对维度为n的样本点进行回归，然而，n可能大多以至于远远大于训练样例数m。但是

2013-06-05 00:25:32 2506

转载 C#文件读写相关技术介绍

转自http://www.cftea.com/c/2009/04/NC13BFY46B5BM714.asp文件读写相关类介绍文件读写操作涉及的类主要是：MarshalByRefObject 类：允许在支持远程处理的应用程序中跨应用程序域边界访问对象；BinaryReader 类：用特定的编码将基元数据类型读作二进制值。BinaryWriter 类：以二进制形式

2011-11-28 23:34:44 509

转载 C#的StreamReader读文件

using System;using System.IO;using System.Collections;namespace TextFileReader_csharp{ /// /// Summary description for Class1. /// class Class1 { static void Main(string[] args) { S

2011-11-28 20:39:53 778

转载卷积

转自http://hi.baidu.com/sunkanghome/blog/item/db5075c449602dc338db4965.html 卷积这个东东是“信号与系统”中论述系统对输入信号的响应而提出的。因为是对模拟信号论述的，所以常常带有繁琐的算术推倒，很简单的问题的本质常常就被一大堆公式淹没了，那么卷积究竟物理意义怎么样呢？卷积表示为y(n) = x(n)

2011-11-23 11:25:40 1920

转载浅谈SIFT算法

转自http://www.cnblogs.com/zhangzhi/archive/2009/09/18/1569486.html SURF算法是SIFT算法的加速版，opencv的SURF算法在适中的条件下完成两幅图像中物体的匹配基本实现了实时处理，其快速的基础实际上只有一个——积分图像haar求导，对于它们其他方面的不同可以参考本blog的另外一篇关于SIFT的文章。不

2011-11-22 15:03:20 542

转载（EM算法）The EM Algorithm

转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是向量时，如果其hessian矩阵H是半正定的（），那么f是凸函数。如果或者，那么称f是严格凸函数。 Jensen

2011-11-17 15:00:37 593

The tree of a hierarchical clustering can be produced either bottom-up,by starting with the individual objects and grouping the most similar ones, ortop-down, by starting with all the objects and divi

2011-11-17 09:46:18 3109

转载协同过滤

转自http://baike.baidu.com/view/981360.htm协同过滤　　电子商务推荐系统的一种主要算法。　　协同过滤推荐（Collaborative Filtering recommendation）是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用

2011-11-17 09:41:14 1401

转载 Example for Agglomerative Clustering

转自http://en.wikipedia.org/wiki/Hierarchical_clustering For example, suppose this data is to be clustered, and the Euclidean distance is the distance metric.Cutting the tree at a given height

2011-11-16 18:35:40 703

转载 PLSI( probabilistic latent semantic indexing ) 词分类，文档分类

折磨了我一个星期，断断续续的看，断断续续的想。早上上厕所的时候，终于想通了。或许是对英文理解能力差吧，发觉其实挺简单的。 LSA对于许多搞IR和NLP的来说应该不陌生吧，LSA用SVD降维，然后来根据word distribution，来分类文档而LSA的劣势在于，没有比较好的统计基础，这个和当前流行趋势是不相符的。所以PLSA，用概率模型来做文档分类，或者词聚类。等要求你

2011-11-16 17:33:58 982

转载 MinHashing基本原理(2)

转自http://roba.rushcj.com/?p=540读书笔记：相似度计算(2)如果有N个集合，求它们之间两两的相似度就需要N*(N-1)/2次计算，当N很大时这个代价仍然承受不起。于是我们需要一种方法能够不遍历所有可能的元素对就找出相似度较大的那些（大于某个给定的阈值t），这就是所谓Locality-Sensitive Hashing。第三章的后半部分基本全是围绕这一话题展开

2011-11-15 18:10:17 2046

转载 MinHashing基本原理

转载http://roba.rushcj.com/?p=533&cpage=1#comment-5985读书笔记：相似度计算(1)无意中发现这本貌似不错的书 Mining of Massive Datasets，随便记一下学到的东西。因为对数据挖掘没什么研究，理解肯定很肤浅，请过往大牛指教。下面内容来自此书第三章的前面部分。在数据挖掘中经常需要用到比较两个东西的相似度。比如搜索

2011-11-15 18:07:21 3819

转载矩阵特征值

矩阵特征值　　设 A 是n阶方阵，如果存在数m和非零n维列向量 x，使得 Ax=mx 成立，则称 m 是A的一个特征值（characteristic value)或本征值（eigenvalue)。非零n维列向量x称为矩阵A的属于（对应于）特征值m的特征向量或本征向

2011-09-20 14:58:20 1244

原创 httpclient登录新浪微博手机版Weibo.cn

查看此页面的源代码 action="login_submit.php?rand=368437524&backURL=http%3A%2F%2Fweibo.cn%2Fdpool%2Fttt%2Fhome.php%3Fs2w%3Dlogin&backTitle=%D0%C2%

2011-08-15 20:01:00 14841 6