一起写爬虫
文章平均质量分 72
一起学IT技能
我也不知道为什么,除了我媳妇儿以外,只是单纯的喜欢技术
展开
-
爬虫系统简介
爬虫系统简单介绍爬虫所包括的组件下载组件 解析组件持久化组件去重组件原创 2016-07-28 22:14:43 · 7396 阅读 · 0 评论 -
爬虫 编写DownEngine
编写DownEnginedownEngine主要负责下载HTML页面,以供解析引擎(parseEngine)解析。 下载页面的目的就是为了解析其中的内容,如果不是目标页,需要解析其中的link,然后放到未解析的队列里,如果是目标页面,则需要解析其中的元数据,执行持久化操作。 /**DownEngine Interface***/public inte原创 2016-08-01 11:29:56 · 481 阅读 · 0 评论 -
最短编辑距离
最短编辑距离:编辑距离是一种字符串之间相似程度的计算方法。按照Damerau给出的定义,即两个字符串之间的编辑距离等于使一个字符串变成另外一个字符串而进行的(1)插入、(2)删除、(3)替换或(4)相邻字符交换位置而进行操作的最少次数。编辑距离越短,两个字符串的相似度越高。再看这些算法的过程当中,了解到一种思想,叫做动态规划,我对动态规划的理解也不是特别深刻,在编码的过去的几年少有原创 2016-08-03 13:25:24 · 890 阅读 · 0 评论 -
Simhash学习笔记
文档如果直接使用MD5做hash这种方式进行去重操作,对于一些相似文档的处理就无能为力了,简单的一个字符的变化,hash值就会发生变化,Simhash简单来说就是类似文档所产生的hash值也是类似的,这样一来就可以通过计算hash值的相似度来进行文档相似度的计算。原创 2016-08-01 16:47:17 · 2406 阅读 · 0 评论