爬虫入门教程⑥—安装爬虫常用工具包

最新推荐文章于 2023-06-15 16:32:12 发布

食我大招啦

最新推荐文章于 2023-06-15 16:32:12 发布

阅读量282

点赞数 2

分类专栏：爬虫文章标签： python 爬虫

13 篇文章 3 订阅

订阅专栏

这是承前启后的一节，也是很有可能出错的一节。

我们要安装的有

jupyter(简单方便的写代码工具)
requests(Python HTTP请求工具)
lxml(解析网页结构工具)
beautifulsoup(网页文档解析工具)
pip是Python的包管理工具，可以安装，升级，卸载Python包，并且只需要一条命令就行，是个非常棒的工具。

Windows键+X键，点出来命令提示符。
然后输入pip3 install jupyter，回车。然后就开始下载安装jupyter了。

在这里插入图片描述
安装完成了会提示successful installed jupyter,…。我的因为安装过了，所以提示需求已经满足了。

安装requests和之前一样。在命令行继续输入pip3 install requests。回车开始下载安装。

安装lxml，继续输入命令pip3 install lxml。回车安装。
安装beautifulsoup有一点不一样，安装命令为pip3 install bs4。这是安装第四版的beautifulsoup的意思。

 Jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。
Jupyter Notebook 的本质是一个 Web 应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。

用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。

用这个来写代码会比Python自带的IDLE或者命令行要好很多，不仅有代码着色、代码智能提示，还可以点击Run立即得出结果。
我们仅仅是把它作为我们的代码编辑器，另外的强大功能，如果有精力可以自己去jupyter的官方文档探索。下面是jupyter的截图。
在这里插入图片描述

requests简介
requests是个非常优秀，非常棒的库。使用它我们可以减少非常大的工作量，专注于对请求的创建和处理，而不需要去处理中间过程，诸如302跳转、cookie的发送与接收、表单的编码。
简单来说，我们就是使用它进行网络请求，获取到网页的内容。如果要自己全程实现一个请求的流程，代码会非常多。但是有了requests，一切都是那么easy、放弃urllib吧！
lxml简介