经过前面的文章的学习,相信大家已经跨过了python的门槛,我们可以运用python做一些有意思的事了。现在我们开始新模块----爬虫。
学习爬虫要本着别学太好的态度去学习,不然就很容易从入门到入狱。如果大家爬虫时遇到了很麻烦的反爬机制,请大家学会摆烂,及时住手。因为反爬机制是为了保护敏感数据,这些数据如果乱用可能会触犯法律。
所以务必!务必!务必!及时住手!学会放弃!
当然,学习爬虫还是有很多用处的,在我们的工作中,可以运用爬虫来爬取一些安全的数据,大大提高我们的工作和学习效率,我也相信大家不会去走一些“无聊”的事,比如爬取网易云音乐白嫖听歌什么的。
废话不多说我们开始吧,这一篇先教大家吧环境搭建起来,并且形成依赖文件。
一、常规搭建
在pycharm中搭建环境,这种方法简单
二、指令搭建
1、新建文件夹(文件夹的名称就是项目名称)
2、创建后缀是.py的python文件
3、用文本编辑器(IDLE或者pycharm)
三、运行程序的指令
1、绝对路径:
python py文件路径 → windows电脑或者mac的虚拟环境
python3 py文件路径 → mac的系统环境
2、相对路径(推荐):
相对路径较为保险,不容易出错,不会因为文档的迁移导致无法使用
cd指令:
cd 文件夹路径 → 打开指定的文件夹
注意如果打开的文件夹所在的盘和指令所在的盘不一致,必须先切盘:(盘名:)
四、创建和激活虚拟环境
1、打开保存虚拟环境的文件夹
2、创建虚拟环境
输入(python -m venv 文件名)创建虚拟环境
3、激活虚拟环境
windows:直接写虚拟环境的文件夹中的scripts文件夹中的active.bat文件的路径,然后回车
4、退出虚拟环境
输入:deactivate
五、pip(python的包管理工具)
1、pip lisr → 查看当前环境已经安装的第三方库
2、pip install 第三方库名称 → 直接下载并且安装指定的第三方库
3、pip install 第三方库名称 -i 国内镜像源地址 → 在指定的地址中下载安装指定的第三方库
Python国内镜像源:
https://pypi.douban.com/simple/ 豆瓣
https://mirrors.aliyun.com/pypi/simple/ 阿里
https://pypi.hustunique.com/simple/ 华中理工大学
https://pypi.sdutlinux.org/simple/ 山东理工大学
https://pypi.mirrors.ustc.edu.cn/simple/ 中国科学技术大学
https://pypi.tuna.tsinghua.edu.cn/simple 清华
永久修改镜像源:
pip config set global.index-url Simple Index
4、 pip install 第三方库名称==版本号 → 安装指定版本的第三方库
5、 pip install 第三方库名称1 第三方库名称2 第三方库名称3 … → 同时安装多个第三方库
6、pip uninstall 第三方库名称 → 卸载第三方库
六、生成环境的依赖文件
1、激活需要生成依赖文间的python环境
2、pip freeze > 依赖文件路径(文件名一般使用reauirements.txt)
3、使用依赖文件安装第三方库
(1)激活需要安装第三库的环境
(2)pip install -r 依赖文件路径