2017年12月_LegenDavid

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载看看Md5自然产生重复的概率

问题：假设有十万个不同的文件，每个文件对应于一个MD5。这十万个MD5中，存在两个相同的MD5的概率是多大？答： MD5是128位hash码（4个整数，每个整数4个字节）。我们假设它的计算结果是足够随机和足够分散的。因此，一个文件的MD5码，有2的128次方（用2e128表示，下面都用这种方式表示）个可能。进而我们知道，随意找出来的两个文件的MD5码相等的可能性，是2e128分之一。下面

2017-12-28 12:16:13 3568

转载 GBDT和XGboost介绍

前言GBDT（Gradient Boosting Decision Tree）是一种基于迭代所构造的决策树算法，它又可以简称为MART（Multiple Additive Regression Tree）或GBRT（Gradient Boosting Regression Tree）。虽然名字上又是Gradient又是Boosting的，但它的原理还是很浅显易懂（当然详细的推导还是有一些难

2017-12-26 17:07:02 36001 4

转载不同的瑞士军刀：对比 Spark 和 MapReduce

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 MapReduce 的二阶段范式。这大大加快

2017-12-25 18:52:22 353

转载逻辑回归LR的特征为什么要先离散化

在工业界，很少直接将连续值作为特征喂给逻辑回归模型，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易scalable（扩展）。2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰。3.

2017-12-25 12:19:53 341

转载 BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例　　为了说明Bloom Filter存在的重要意义，举一个实例：　　假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。

2017-12-07 12:04:55 286

转载深入推荐引擎相关算法 - 聚类

聚类分析什么是聚类分析？聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster)，它的目标是：在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。所以，在很多应用中，一个簇中的数据对象可以被作为一个整体来对待，从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为，即所谓“物以类聚，人以群分”，核心的思想也就是聚类。

2017-12-06 18:11:38 698

转载推荐引擎初探

推荐引擎初探赵晨婷和马春娥2011 年 3 月 16 日发布WeiboGoogle+用电子邮件发送本页面 21系列内容：此内容是该系列 3 部分中的第 1 部分：探索推荐引擎内部的秘密“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索

2017-12-06 18:08:51 230

原创在线最优化、正则化、FTRL

2017-12-06 15:56:09 887

ML step by step

ML step by step ML step by step ML step by step ML step by step ML step by step ML step by step ML step by step ML step by step ML step by step

2017-09-21

在线最优化求解(Online Optimization)-冯扬-2014.12.0

2017-04-06

python 正则表达式 findall和search的问题

2015-09-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人