上周为了从网络上搜寻一些数据而接触到了爬虫,由于时间紧迫,不能从头开始学习,就想从网上找一些现成的爬虫工具直接使用,百度搜素得到的结果有这么几种:LoalaSam_Beta、火车头、集搜客、八爪鱼、沙漠之鹰等,第一个是外国的软件,据说爬取国内的数据好像不好用;火车头、集搜客、八爪鱼这几个软件大同小异,都是不用写代码,用可视化的方法完成网页上数据的采集,当然了,要自己制定一些采集规则,也就是设计流程图。由于八爪鱼这个软件官方提供的学习资料和视频课程比较多,而且也有免费版本,所以就用了1天时间学习这个软件的使用并抓取到了一些数据。
遗憾的是,八爪鱼只能直接采集到网页上的文本信息和图片的链接,并不能直接将想要的图片下载下来,如果要将图片下载下来,就需要先用制定好的规则采集到图片的URL,并将这些URL存储到EXCEL中,在EXCEL中进行预处理后,在用八爪鱼提供的某个图片下载工具将URL对应的图片下载下来。然而经过尝试,八爪鱼交流群里下载到的那个图片转换工具貌似并不是他们自己公司开发的,而且我下载图片并不能成功,只是简单的生成了图片的缩略图,但是图片内容一个都没有,根本就没有什么卵用。
后来没办法,觉得这个工具应该也没有多高深,就抱着试试看的态度自己用python写一个吧。要写这样个工具,首先要明确这个工具的目的是什么,下面这张EXCEL表中存放的是要下载的图片名称、图片的URL和图片要保存在本地的路径。如下图:
这张表里,前两列分别存放了要下载的图片的名称、图片的URL,这两列数据是用八爪鱼从网页上上爬来的,第三列中的图片保存路径就是自己设定的了,这个如果量比较大的话,当然在EXCEL里用函数是很好完成的了,先在C1单元格里写上图片要存放的那个文件夹的路径,并在末尾加上“\”,然后自动填充,使这列中的文件路径相同;再在D1单元格中写上“.jpg”,写完后也自动填充该列;然后在E1单元中输入公式“=C1&A1&D1”,写完敲回车,就出了要存放的图片的包含名称和后缀的全路径,然后自动填充这列;最后,选中E列并将这列内容复制粘贴到F列中,然后删除掉C、D、E三列并保存该EXCEL表,这样,数