url去重 --布隆过滤器 bloom filter原理及python实现

常见URL过滤方法1 直接查询比较即假设要存储url A,在入库前首先查询url库中是否存在 A,如果存在,则url A 不入库,否则存入url库。这种方法准确性高,但是一旦数据量变大,占用的存储空间也变大,同时,由于要查库,数据一多,查询时间变长,存储效率下降。2 基于hash的存储对于给定...

2016-08-07 15:49:50

阅读数 9596

评论数 0

simhash文本相似度计算

常见文本相似度计算方法:1 向量空间模型VSM(Vector Space Model)。使用VSM计算相似度,先对文本进行分词,然后建立文本向量,把相似度的计算转换成某种特征向量距离的计算,比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题:需要对文本两两进行相似度比较,无法...

2016-08-03 21:07:59

阅读数 2099

评论数 0

特征选择--scikit-learn

特征选择(Feature Selection):choosing a subset of all the features(the ones more informative)。最终得到的特征选是原来特征的一个子集。 特征选取是机器学习领域非常重要的一个方向。 主要有两个功能: (1)减少特...

2016-07-29 12:28:12

阅读数 27075

评论数 1

拉格朗日插值 python scipy

拉格朗日插值数学原理:根据数学知识,对于平面上已知的n个点(无两点在一条直线上)可以找到一个 n-1 次多项式: y=a0+a1x+a2x2+...+an−1xn−1y=a_0 +a_1x+ a_2x^2+ ... + a_{n-1}x^{n-1}为了进行根据新的x, 求出对应的 y值,需要求出...

2016-05-24 16:59:47

阅读数 9266

评论数 1

hash加密 python

python中进行hash加密1 使用hashlib模块使用方法如下 import hashlib m = hashlib.md5() m.update("ff") m.update("aa") m.digest()导入hashlib模块,建立md5...

2016-05-06 09:40:00

阅读数 944

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭