简易爬虫入门(1)——收获一堆美照的开始

对新知识的热忱

我个人觉得爬虫并不是一个特别难入门,当然也仅仅是入门,只求理解一些最基础的概念。
因此你需要:

  1. 对没了解过的知识、领域充满热情
  2. 积极向上的心态,不害怕遇到困难
  3. 最基础的HTML(元素/标签)CSS(选择器)知识

Python安装

什么,居然还有人没有在电脑上安装Python?不会吧不会吧?

好吧开个玩笑不要当真

开个玩笑哈,大家不要捶我

让没有Python的同学先来下载,已经有 Python 环境可以跳过啦

比较急的 Windows 用户可以直接点这里下载 32位 / 64位

Python官网下载入口
进入到下面这里,找左列 Stable Release,选一个你喜欢的版本号,下载32位或64位_(:з」∠)_的 installer 哦
在这里插入图片描述
安装软件总不用教了吧,还是给有需要的人贴个教程

Python 第三方库安装

浏览器自动化操作

Selenium

Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。[百度百科]

① pip安装 Selenium 库
  1. 打开你喜欢的命令行界面,输入如下命令
    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium
    

    安装结果如下(如果有报错,可以在下面留言给我)
    命令中-i是临时使用镜像源的参数,因为不知道各位有没有配置全局镜像,后续的pip安装命令也会如此操作
    安装结果

② 下载 Chrome 驱动
  1. 查看浏览器版本

    在这一步最重要的就是确认Chrome的版本 并且 确认Chrome的执行文件路径
    打开Chrome,并在地址栏输入

    chrome://version
    

    就能看到下图 查看版本/文件路径
    ① 可以看到这里 Chrome 的版本为87.0.4280.88
    ② 且看到 Chrome 的本体位于C:\Program Files (x86)\Google\Chrome\Application\chrome.exe

  2. 下载浏览器版本对应的 webdriver

    根据刚刚找到的Chrome版本进行查找(这里我们使用阿里巴巴的镜像
    进入页面按下Ctrl + F,输入刚刚找到的版本进行搜索
    搜索
    这里按照你当前使用的系统下载
    win32_driver
    注:

    1. 如果直接黏贴找不到,可以将版本裁掉一部分再搜索,拿图中的87.0.4200.88举例,万一找不到可以考虑查找87.0.4200,如果连87.0.4200都找不到,可以下载87.0.41xx的驱动,尽量保证版本贴近
      其实大版本号为87基本都能用,以前也试过找不到完全对应的,大概是78那个版本_(:з」∠)_
    2. 教程只演示操作Chrome,使用火狐也一样,后面Coding时的启动方式有区别而已
      gecko driver → FireFox(火狐)
      Chrome driver → Chrome(谷歌)
  3. 将驱动放到 Chrome 本体所在的文件夹下

    根据上面第一步找到的路径,如果没记住可以回去看一看
    放置驱动

数据储存

Pandas(存入csv使用)

  1. pip 安装一下
    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
    

MySQL 数据库(可选)

  1. 你可能需要安装一个 MySQL

    偷个懒,附上别人的教程 → MySQL5.7安装 / MySQL8安装

  2. 然后就是 pip 安装一下 Python 操作 MySQL 的库
    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pymysql
    

一个微博账号

鉴于本教程针对的是微博相册,而进入这里需要登录,所以还是需要各位准备一个微博账号啦

准备结束

开始下一阶段!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值