- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 WSWP(用 python写爬虫) 笔记五:并发爬虫
前面已经实现了链接爬虫、数据获取爬虫以及缓存功能。前面实现的都是串行下载网页的爬虫,只有前一次下载完成以后才会启动新的下载。爬取规模较小的网站时,串行下载尚可应对,如果面对的是大型网站时,串行下载效率就很低下了。 现在开始逐步实现使用多线程和多进程这两种下载的并发爬虫。 首先通过Alexa网站获取到最受欢迎的100万个网站列表(可直接下载一个压缩文件,网址:http://s3.amazonaws
2017-11-08 16:06:22 690
原创 WSWP(用 python写爬虫) 笔记四:实现缓存功能
前面已经重构好了链接获取、数据获取模块,现在开始实现具体的缓存功能。磁盘缓存缓存下载结果,先来尝试最容易想到的方案,将下载到的网页内容存储到文件系统中。为了实现该功能,需要将url安全的映射为跨平台的文件名。三大主流文件系统的文件名限制如下: 操作系统 文件系统 非法文件名字符 文件名最大长度 Linux Ext3/Ext4 / 和 \0 255字节 OS X
2017-10-31 17:12:33 555
原创 WSWP(用 python写爬虫) 笔记三:为爬虫添加缓存网页内容功能
前面已经实现了一个具有数据爬取的爬虫。如果新增需求还要再抓取另一个字段,比如前面的爬虫中要求增加一个国旗图片的url,又该怎么做呢?想要抓取新增的字段,需要重新下载整个需要爬取的网站。对于小型网站来说,可能不算特别大的问题,但是对于那些百万级数据的网站而言,重新下载可能需要耗费很长一段时间。因此,对已爬取的网页进行缓存的方案可以让每个网页只下载一次。为链接爬虫添加缓存支持修改上一个爬虫中的downl
2017-10-27 18:31:44 981
原创 WSWP(用python写爬虫)笔记二:实现链接获取和数据存储爬虫
前面已经构建了一个获取链接的爬虫模块,现在继续完善这个爬虫。分析网页要对一个网页中的数据进行提取,需要先对网页的结构有一个大体的了解,通过在浏览器查看网页源代码的方法就能实现。 在了解到网页的结构后,接下来便是获取自己想要的数据了,个人比较喜欢用Chrome浏览器的检查元素的方式来定位数据在html源码中的位置(根据个人喜好来选择,不过建议直接使用chrome自带的,后面获取解析内容的css se
2017-10-26 12:34:07 776
原创 WSWP(用python写网络爬虫)笔记 一:实现简单爬虫
wswp中的代码是通过python2的语法来写的,在学习的过程中个人比较喜欢python3,因此准备将wswp的示例代码用python3重写一遍,以加深映像。chapter1 笔记识别网站所用技术和网站所有者构建网站所使用的技术类型的识别和寻找网站所有者很有用处,比如web安全渗透测试中信息收集的环节对这些信息的收集将对后续的渗透步骤有很重要的作用。对于爬虫来说,识别网站所使用的技术和网站所有者虽然
2017-10-25 08:43:00 3846
master kali
2014-09-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人