正所谓工欲善其事,必先利其器。今天作为萌新的我就为大家介绍一下使用python网络爬虫的一些准备工作。
一.下载Anaconda.
那么什么是Anaconda?
它是python科学计算环境,安装好Anaconda后,你便将python的环境变量,解释器,开发环境等安装在计算机中。除此,Anaconda还提供了众多科学计算的包,如Numpy,Scripy,Pandas等,以及机器学习,生物医学和天体物理学计算等众多的包/模块,如Scikit-Learn,BioPython等。更为有趣的是python的中文意思是“蟒蛇”,而Anaconda的中文意思是“南美洲的巨蟒“(以上BB这么多你是不是已经意识到python的用途很广泛呢?还等什么让我们一起向前吧)
·你可以选择从官网下载:https://www.continuum.io/downloads.(Python的版本选择最新,这与小编在阿里云培训时接触到的开发板有所区别,阿里的开发板要求你用2.0及以上的暂不支持3.0及以上)
·你也可以使用清华大学镜像,下载列表链接为: https://mirrors.tuna.tsinghua.edu.cn./anaconda/archive/。同时下拉到最下面如右图
二.下载Python
此处不再多说,网址为:https://www.python.org/downloads/。
重点是环境变量的配置。找到Python的安装路径,随后复制下来。如果你忘了见下图
之后找到本机“属性”,之后顺序是“高级系统设置”>“环境变量”>“找到Path变量”,之后点击“编辑”>"新建"然后粘贴。这一系列有不解之处见下图:
环境变量配置好后,便可在命令行中直接执行环境变量路径下的可执行文件,如Python,pip等命令。
三.为爬虫准备。
1.安装第三方库bs4,(可以使用其中的BeautifulSoup 解析网页。)
打开cmd.exe
按下“win+R”,输入cmd,之后在cmd中键入:
pip install bs4(pip是Python安装各种第三方库(package)的工具,那pip不用装吗?是的,Anaconda自带);
那么什么是第三方库呢?打个比方你需要为电脑杀毒,你会特意为电脑写一个杀毒软件吗?我相信会有绝大数人选着现有的如360,这就是第三方库,而杀毒是第三方库中可实现的功能。
2.使用Jupyter(同样是Anaconda自带)
a.通过cmd打开Jupyter
键入“jupyter noteboook”回车
其地址默认为:http://localhost:8888/tree。
注意:在你进行编译时不要将cmd关闭。
b.创建python文件,点击右上角的New按钮,从下拉列表中选择Python3作为希望启动的Notebook类型。
c.在新创建的文件中编写Python程序,使用快捷键Alt+Enter执行。
3.安装Requests库
打开cmd.exe键入:
pip install requests
若不成功再次键入
pip3 install requests
这里附上我的安装截图
若以上方法均不成功附上以下几种方法:
以上是小编在读了《Python网络爬虫从入门到实践》及《Python3网络爬虫开发实战》的前面章节后做的一个总结。新手上路翻车勿怪。