爬虫学习
韩梅梅meimei
这个作者很懒,什么都没留下…
展开
-
【学习】正则表达式1
想搞一搞爬虫,发现学习正则表达式的必要性!某乎说,入门就从《精通正则表达式》开始。下载了中文和英文版的书但心沉不下来,今日在图书馆翻到这本书,感觉看纸质版确实有动力些。今日阅读了第一章,基本上把正则表达式的元素都搞了个明白,但是还有很多东西值得学习和探索,比如: 第三版距今还是有些年代的,不知书中的内容现在是否有变化 不同egrep之间的差别 涉及到较复杂的具体问题,经常面临考虑是否周到的问题 ...原创 2019-01-17 20:45:22 · 126 阅读 · 0 评论 -
【学习】 爬虫入门
文章目录我需要学习的内容Bloom FilterScrapy参考资料 我需要学习的内容 摘自参考1(其实原创是知乎回答) 1、基本的爬虫工作原理 2、基本的http抓取工具,scrapy 3、避免重复抓取网页,这里我们主要讨论使用 Bloom Filter 4、如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。 5...原创 2019-01-18 22:19:42 · 115 阅读 · 0 评论