人生的第一个爬虫(python3)
前言
本篇blog用于记录本小白利用python写的第一个小工具。用时一天多一些,此外本人还处于不断学习中,该blog是本人的见解与笔记,会有许多纰漏与不足,望大牛指点。本篇论文较为基础,将会细致讲述从0到完成的每一步骤(本人用得少,到时候依靠笔记才能重新捡起来)。
该爬虫有三个功能:爬取源码、爬图与图片文字识别。
主体界面:
爬取图片:
识别图像中文字(配合Snipaste):
第一步:环境、库的配置
该工具涉及到了GUI界面设计(tkinter)、网址请求(requests)、下载(urllib.request)、图片截取(PIL)、字符串匹配(re)等。
库的安装,我所了解的有两种主要的方法。
一、pycharm中setting添加库
file–setting–project interpret–install
二、cmd安装
移步至解释器根目录下,找到Scripts文件夹,双击后在文件目录输入框内输入cmd,能够快速打开cmd并且快速进入该文件夹。pip install (库名字)