收获老婆美照的准备工作
对新知识的热忱
我个人觉得爬虫并不是一个特别难入门,当然也仅仅是入门,只求理解一些最基础的概念。
因此你需要:
- 对没了解过的知识、领域充满热情
- 积极向上的心态,不害怕遇到困难
- 最基础的
HTML(元素/标签)
、CSS(选择器)
知识
Python安装
什么,居然还有人没有在电脑上安装Python?不会吧不会吧? 开个玩笑哈,大家不要捶我
让没有Python的同学先来下载,已经有 Python 环境可以跳过啦
比较急的 Windows 用户可以直接点这里下载 32位 / 64位
进入到下面这里,找左列 Stable Release,选一个你喜欢的版本号,下载32位或64位_(:з」∠)_的 installer 哦
安装软件总不用教了吧,还是给有需要的人贴个教程吧
Python 第三方库安装
浏览器自动化操作
Selenium
Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。[百度百科]
① pip安装 Selenium 库
- 打开你喜欢的命令行界面,输入如下命令
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium
安装结果如下(如果有报错,可以在下面留言给我)
命令中-i
是临时使用镜像源的参数,因为不知道各位有没有配置全局镜像,后续的pip安装命令也会如此操作
② 下载 Chrome 驱动
-
查看浏览器版本
在这一步最重要的就是
确认Chrome的版本
并且确认Chrome的执行文件路径
打开Chrome,并在地址栏输入chrome://version
就能看到下图
① 可以看到这里 Chrome 的版本为87.0.4280.88
② 且看到 Chrome 的本体位于C:\Program Files (x86)\Google\Chrome\Application\chrome.exe
-
下载浏览器版本对应的 webdriver
根据刚刚找到的Chrome版本进行查找(这里我们使用阿里巴巴的镜像)
进入页面按下Ctrl + F,输入刚刚找到的版本进行搜索
这里按照你当前使用的系统下载
注:- 如果直接黏贴找不到,可以将版本裁掉一部分再搜索,拿图中的87.0.4200.88举例,万一找不到可以考虑查找87.0.4200,如果连87.0.4200都找不到,可以下载87.0.41xx的驱动,尽量保证版本贴近
其实大版本号为87基本都能用,以前也试过找不到完全对应的,大概是78那个版本_(:з」∠)_ - 教程只演示操作Chrome,使用火狐也一样,后面Coding时的启动方式有区别而已
gecko driver → FireFox(火狐)
Chrome driver → Chrome(谷歌)
- 如果直接黏贴找不到,可以将版本裁掉一部分再搜索,拿图中的87.0.4200.88举例,万一找不到可以考虑查找87.0.4200,如果连87.0.4200都找不到,可以下载87.0.41xx的驱动,尽量保证版本贴近
-
将驱动放到 Chrome 本体所在的文件夹下
根据上面第一步找到的路径,如果没记住可以回去看一看
数据储存
Pandas(存入csv使用)
- pip 安装一下
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
MySQL 数据库(可选)
- 你可能需要安装一个 MySQL
偷个懒,附上别人的教程 → MySQL5.7安装 / MySQL8安装
- 然后就是 pip 安装一下 Python 操作 MySQL 的库
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pymysql
一个微博账号
鉴于本教程针对的是微博相册,而进入这里需要登录,所以还是需要各位准备一个微博账号啦