simhash_1

通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采...

2015-11-30 18:50:04

阅读数:266

评论数:0

SIMHASH算法原理与实现

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 原理 simhash值的生成图解如下 大概花三分钟看懂...

2015-11-30 17:28:43

阅读数:265

评论数:0

DCT变换、DCT反变换、分块DCT变换

一、引言 DCT变换的全称是离散余弦变换(Discrete Cosine Transform),主要用于将数据或图像的压缩,能够将空域的信号转换到频域上,具有良好的去相关性的性能。DCT变换本身是无损的,但是在图像编码等领域给接下来的量化、哈弗曼编码等创造了很好的条件,同时,由于DCT变换时对...

2015-11-30 16:38:51

阅读数:841

评论数:0

grep命令

1. 查找在a.txt文件中存在,在b.txt文件中不存在的命令 grep -vFf b.txt a.txt 2. 查找在a.txt和b.txt文件中都存在的命令 grep -Ff a.txt b.txt

2015-11-16 10:48:45

阅读数:356

评论数:0

grep:Binary file (standard input) matches

grep "key" xxx.log时输出 Binary file xxx.log matches 百度了一下:grep认为这是二进制文件,解决方案:grep -a。 grep -a "key" xxx.log

2015-11-13 12:28:16

阅读数:315

评论数:0

SecureCRT

在使用SecureCRT进行服务器端开发,日志查询时,经常会碰到连接超时,那么,超时之前的一些命令或结果将不复存在,很是烦恼,解决方法如下: 方法一: 从客户端入手   方法二: 从服务端入手 修改/etc/ssh/sshd_config配置文件...

2015-11-13 11:55:48

阅读数:367

评论数:0

new内存时,数组长度为0

c++ new的时候,如果长度为0,虽然会有指针产生,但是 则会产生意想不到的错误, int * array = new int[0]; array[0] = 0; 虽然能访问,但是,取决于正在访问的内存是不是有人在使用或占用,如果有人使用,则该内存不是野内存,会报错...

2015-11-12 10:47:29

阅读数:719

评论数:0

IplImage, Mat, CvMat之间转换

1、CvMat之间的复制 //注意:深拷贝 - 单独分配空间,两者相互独立 CvMat* a; CvMat* b = cvCloneMat(a); //copy a to b 2、Mat之间的复制 //注意:浅拷贝 - 不复制数据只创建矩阵头,数据共享(更改...

2015-11-11 16:21:56

阅读数:274

评论数:0

L-BFGS

关于优化算法的求解,书上已经介绍了很多的方法,比如有梯度下降法,坐标下降法,牛顿法和拟牛顿法。梯度下降法是基于目标函数梯度的,算法的收敛速度是线性的,并且当问题是病态时或者问题规模较大时,收敛速度尤其慢(几乎不适用);坐标下降法虽然不用计算目标函数的梯度,但是其收敛速度依然很慢,因此它的适用范围也...

2015-11-05 16:35:33

阅读数:1453

评论数:0

BFGS校正

2015-11-05 14:38:52

阅读数:443

评论数:0

拟牛顿算法

最近在看条件随机场中的优化算法。其中就设计到了无约束化的最优化方法,也就是牛顿法。 在CRF(conditional random field)中,使用的是L-BFGS法。费了好大的劲把算法的原理及推导算是看明白了,可是到了具体实现上,又碰到问题了,比如在求搜索方向的时候,使用       ...

2015-11-05 14:34:58

阅读数:1584

评论数:0

L-BFGS优化算法

关于优化算法的求解,书上已经介绍了很多的方法,比如有梯度下降法,坐标下降法,牛顿法和拟牛顿法。梯度下降法是基于目标函数梯度的,算法的收敛速度是线性的,并且当问题是病态时或者问题规模较大时,收敛速度尤其慢(几乎不适用);坐标下降法虽然不用计算目标函数的梯度,但是其收敛速度依然很慢,因此它的适用范围也...

2015-11-02 14:40:56

阅读数:1199

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭