爬虫——首次实现爬取图像
前言:早在写论文期间想利用爬虫技术爬取图像相关图像数据,作为大数据、深度学习的数据资源。着手学习python,但由于各种原因最终没有实现,而是用了最笨的鼠标右键-保存操作,现在来弥补这一遗憾。文章主要参考岚漾忆雨博主的Python爬虫之——爬取妹子图片。
一、平台
本项目实现平台为Win10,Pycharm,这里就不具体介绍了。
二、准备条件
学习python相关基础知识后,发现距离掌握爬虫技术还是有一定差距,主要是对爬虫技术中涉及到几个第三方库认识不够。但是在实现本项目后发现,如果你的正则表达学习的够好,那么你完全可以不依靠第三方库来实现(此处待写完本博再斟酌)。
准备的第三方库为:
requests
beautifulsoup4
这两个库在这里不做解释,需大家自己搜资料学习,因为简单解释对于完成本项目显得徒劳,因此需要深入学习。
三、具体实现过程
原理就刻板的叙述了,其大体过程就是使用python编程按照个人目的,自动获取网页上的图像信息,并保存下来。
本文爬取的目标是: