最近用爬虫在网上爬了一堆图集。但本人又有点懒,不打算每个文件夹都点进去。于是就萌生了用python2.7生成每个文件夹图片缩略图,然后放在一个新的文件夹里,然后根据每张缩略图来选择看哪些文件夹的内容。
下面开始正题。本文用到了numpy,PIL,os,time,math的包。其中可能需要安装的是前两个。大家可以用pip命令安装。
在此,推荐两个国内的链接(豆瓣跟清华的python包镜像文件,帮助解决大多数read time out问题)。
pip install -i https://pypi.doubanio.com/simple/ --upgrade 包名
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade 包名
第一步,读取图像文件并缩小至一定格式。我的图像文件大多是800*1200的,统一缩小到原先的1/4。
def img2vector(filename):
try:
img=PIL.Image.open(filename)
img=img.resize((200,300))
data = n