- 博客(8)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
转载 看看Md5自然产生重复的概率
问题:假设有十万个不同的文件,每个文件对应于一个MD5。这十万个MD5中,存在两个相同的MD5的概率是多大?答: MD5是128位hash码(4个整数,每个整数4个字节)。我们假设它的计算结果是足够随机和足够分散的。因此,一个文件的MD5码,有2的128次方(用2e128表示,下面都用这种方式表示)个可能。进而 我们知道,随意找出来的两个文件的MD5码相等的可能性,是2e128分之一。下面
2017-12-28 12:16:13 3568
转载 GBDT和XGboost介绍
前言GBDT(Gradient Boosting Decision Tree)是一种基于迭代所构造的决策树算法,它又可以简称为MART(Multiple Additive Regression Tree)或GBRT(Gradient Boosting Regression Tree)。虽然名字上又是Gradient又是Boosting的,但它的原理还是很浅显易懂(当然详细的推导还是有一些难
2017-12-26 17:07:02 36001 4
转载 不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 MapReduce 的二阶段范式。这大大加快
2017-12-25 18:52:22 353
转载 逻辑回归LR的特征为什么要先离散化
在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。3.
2017-12-25 12:19:53 341
转载 BloomFilter——大规模数据处理利器
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。
2017-12-07 12:04:55 286
转载 深入推荐引擎相关算法 - 聚类
聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。
2017-12-06 18:11:38 698
转载 推荐引擎初探
推荐引擎初探赵 晨婷 和 马 春娥2011 年 3 月 16 日发布WeiboGoogle+用电子邮件发送本页面 21系列内容:此内容是该系列 3 部分中的第 1 部分: 探索推荐引擎内部的秘密“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索
2017-12-06 18:08:51 230
ML step by step
2017-09-21
python 正则表达式 findall和search的问题
2015-09-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人