网络爬虫
Chen-Lee
这个作者很懒,什么都没留下…
展开
-
Python正则表达式指南
原文地址:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正转载 2017-08-31 15:25:33 · 245 阅读 · 0 评论 -
你需要这些:Python3.x爬虫学习资料整理
原文地址:https://zhuanlan.zhihu.com/p/24358829?refer=passer之前整理过很多的有关于Python的学习资料,都是有关于Python2.x的资料。我们都知道Python3.x已经存在很长一段时间了:3.x改进了的标准库模块、安全性以及bug修复。随着3.x不断的更新以及不断壮大,很多人逐渐的从2.x转向3.x。上一篇文章已经整理转载 2017-09-02 15:12:58 · 785 阅读 · 0 评论 -
海量数据处理:分治-Hash映射+Bit-map+Bloome Filter
海量数据处理,就是基于海量数据的查找/统计/运算等操作。海量数据顾名思义,就是有大量的数据,不能一次性装入内存处理,导致传统的操作无法实现。对于海量数据的处理,这里将三个,分别是分治--Hash映射/Bit-map/Bloome Filter。 1. 分治-Hash映射 如果两个散列值不同,那么这两个散列值的原始输入也是不同的。 基本思想:对于大文件进行处理时,如转载 2017-10-02 15:47:17 · 494 阅读 · 0 评论 -
LevelDB详解
一、LevelDB入门LevelDB是Google开源的持久化KV单机数据库,具有很高的随机写,顺序读/写性能,但是随机读的性能很一般,也就是说,LevelDB很适合应用在查询较少,而写很多的场景。LevelDB应用了LSM (Log Structured Merge) 策略,lsm_tree对索引变更进行延迟及批量处理,并通过一种类似于归并排序的方式高效地将更新迁移到磁盘,降低索引插转载 2017-10-24 13:49:08 · 466 阅读 · 0 评论 -
Trie树详解及其应用
一、知识简介 最近在看字符串算法了,其中字典树、AC自动机和后缀树的应用是最广泛的了,下面将会重点介绍下这几个算法的应用。 字典树(Trie)可以保存一些字符串->值的对应关系。基本上,它跟 Java 的 HashMap 功能相同,都是 key-value 映射,只不过 Trie 的 key 只能是字符串。 Trie 的强大之处就在于它的时间复杂度。它的插入和转载 2017-10-24 17:30:24 · 220 阅读 · 0 评论 -
正则表达式原理
原文地址: http://www.cnblogs.com/dwlsxj/p/Regex.html其实这篇文章很久之前就应该发出来,由于种种原因没有发出来,如果这篇文章中有错误,还请大家指出,小弟并改正之,没有学不会的东西,只有不想学的东西,只要功夫深,铁杵磨成针,我的至理名言:吾生也有涯而知也无涯,以有涯随无涯,殆矣。我们只要坚持将其看完,相信大家的正则表达式会有一个提升空间!本文属于.转载 2017-11-03 21:58:13 · 704 阅读 · 0 评论 -
url去重 --布隆过滤器 bloom filter及pybloom使用
常见URL过滤方法1 直接查询比较即假设要存储url A,在入库前首先查询url库中是否存在 A,如果存在,则url A 不入库,否则存入url库。这种方法准确性高,但是一旦数据量变大,占用的存储空间也变大,同时,由于要查库,数据一多,查询时间变长,存储效率下降。2 基于hash的存储对于给定的url,通过建立的hash函数,来获得对应的hash值,并将该值存入库中转载 2017-08-31 15:04:03 · 2144 阅读 · 0 评论 -
Bloom Filter原理介绍
参考原文:http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloomFilter——大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一.转载 2017-11-05 17:03:04 · 263 阅读 · 0 评论