- 博客(12)
- 资源 (7)
- 收藏
- 关注
转载 simhash_1
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本
2015-11-30 18:50:04 371
转载 SIMHASH算法原理与实现
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是原理simhash值的生成图解如下大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛,简单实用。算法过程大概如下:
2015-11-30 17:28:43 424
转载 DCT变换、DCT反变换、分块DCT变换
一、引言 DCT变换的全称是离散余弦变换(Discrete Cosine Transform),主要用于将数据或图像的压缩,能够将空域的信号转换到频域上,具有良好的去相关性的性能。DCT变换本身是无损的,但是在图像编码等领域给接下来的量化、哈弗曼编码等创造了很好的条件,同时,由于DCT变换时对称的,所以,我们可以在量化编码后利用DCT反变换,在接收端恢复原始的图像信息。DCT变换在当前的图像分
2015-11-30 16:38:51 3492
原创 grep命令
1. 查找在a.txt文件中存在,在b.txt文件中不存在的命令grep -vFf b.txt a.txt2. 查找在a.txt和b.txt文件中都存在的命令grep -Ff a.txt b.txt
2015-11-16 10:48:45 764
转载 grep:Binary file (standard input) matches
grep "key" xxx.log时输出Binary file xxx.log matches百度了一下:grep认为这是二进制文件,解决方案:grep -a。grep -a "key" xxx.log
2015-11-13 12:28:16 494
转载 SecureCRT
在使用SecureCRT进行服务器端开发,日志查询时,经常会碰到连接超时,那么,超时之前的一些命令或结果将不复存在,很是烦恼,解决方法如下:方法一:从客户端入手 方法二:从服务端入手修改/etc/ssh/sshd_config配置文件 ClientAliveInterval 300(默认为0)这个参数的是意思是每5分钟,服务器
2015-11-13 11:55:48 569
原创 new内存时,数组长度为0
c++ new的时候,如果长度为0,虽然会有指针产生,但是 则会产生意想不到的错误,int * array = new int[0];array[0] = 0;虽然能访问,但是,取决于正在访问的内存是不是有人在使用或占用,如果有人使用,则该内存不是野内存,会报错;o长度的动态分配数组,delete的时候也会有报错出现,找不到内存;这种情况
2015-11-12 10:47:29 2052
转载 IplImage, Mat, CvMat之间转换
1、CvMat之间的复制//注意:深拷贝 - 单独分配空间,两者相互独立 CvMat* a; CvMat* b = cvCloneMat(a); //copy a to b 2、Mat之间的复制//注意:浅拷贝 - 不复制数据只创建矩阵头,数据共享(更改a,b,c的任意一个都会对另外2个产生同样的作用)Mat a;Mat b = a; //a "co
2015-11-11 16:21:56 453
转载 L-BFGS
关于优化算法的求解,书上已经介绍了很多的方法,比如有梯度下降法,坐标下降法,牛顿法和拟牛顿法。梯度下降法是基于目标函数梯度的,算法的收敛速度是线性的,并且当问题是病态时或者问题规模较大时,收敛速度尤其慢(几乎不适用);坐标下降法虽然不用计算目标函数的梯度,但是其收敛速度依然很慢,因此它的适用范围也有局限;牛顿法是基于目标函数的二阶导数(海森矩阵)的,其收敛速度较快,迭代次数较少,尤其是在最优值附近
2015-11-05 16:35:33 2007
转载 拟牛顿算法
最近在看条件随机场中的优化算法。其中就设计到了无约束化的最优化方法,也就是牛顿法。 在CRF(conditional random field)中,使用的是L-BFGS法。费了好大的劲把算法的原理及推导算是看明白了,可是到了具体实现上,又碰到问题了,比如在求搜索方向的时候,使用 但是程序中如何实现呢? 现在转载一篇文章,看过之后,会非常受益。使用导数的最优化算法中
2015-11-05 14:34:58 2873
转载 L-BFGS优化算法
关于优化算法的求解,书上已经介绍了很多的方法,比如有梯度下降法,坐标下降法,牛顿法和拟牛顿法。梯度下降法是基于目标函数梯度的,算法的收敛速度是线性的,并且当问题是病态时或者问题规模较大时,收敛速度尤其慢(几乎不适用);坐标下降法虽然不用计算目标函数的梯度,但是其收敛速度依然很慢,因此它的适用范围也有局限;牛顿法是基于目标函数的二阶导数(海森矩阵)的,其收敛速度较快,迭代次数较少,尤其是在最优值附近
2015-11-02 14:40:56 3952
2024AIGC应用层十大趋势
2024-03-14
AIGC-清华-发展研究资料
2024-03-14
AI Agent-基于大模型的智能体在AGI的道路上前进-调研
2024-03-14
AIGC算力全景与趋势报告-2023
2023-08-12
usertype.dat
2016-04-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人