爬虫工作环境配置

最新推荐文章于 2023-09-15 15:22:26 发布

weixin_33743661

最新推荐文章于 2023-09-15 15:22:26 发布

阅读量118

点赞数

文章标签：爬虫开发工具 python

原文链接：https://yq.aliyun.com/articles/650692

版权

磨刀不误砍柴工，在正式爬虫学习前，需要事先配置工作环境，包括如下：

python环境。推荐python3，Windows建议用anaconda，Linux用如下代码

sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib 1g-dev
sudo apt-get install python3
sudo apt-get install python3-pip

mongodb：非关系型数据库
mysql : 关系型数据库

sudo apt-get install mysql-server mysql-client

redis：非关系型数据库，用于分布式爬取任务

上述环境配置，对于Windows无非是下载安装包，不断下一步；对于Linux无非是apt-get install；对于macOS，无非是brew install。

多版本python管理
一般而言，我们装个python3就够了，如果需要安装多个python用于不同工作，采用如下方法：

使用conda的工作环境管理，
修改PATH，保证主要的python版本顺序最前
复制一份python3解释器，然后改名，也就是增加软连接

# 先查看python在哪里
whereis python
which python
# 增加软连接
ln -s /usr/bin/python3.5 /usr/bin/python3

爬虫的常用库

# 请求库
requests
selenium # 处理JS渲染网页
# 解析库
lxml #提供xpath解析方式
beautifulsoup # 网页解析库，依赖于lxml
pyquery #网页解析库，语法与jQuery完全一致
# 储存库
pymysql
pymongo
redis
# web库, 用于获取代理，存储
flask
django
# 网页记事本,在线运行代码
jupyter

一行代码安装上述python包

pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

另外selenium需要 phantomjs无界面浏览器

入门级教程很多，这篇文章不是教自己一步一步怎么做，而是让自己知道如果想要学爬虫，要去找哪些内容。

写在最后

一年前，我花了499参加了网页云课堂的爬虫课，在学习的过程中，真正的入门了python，而不是单纯的看着工具书，敲代码。
然而，中间有很长一段时间忙其他事情，把python丢在了一遍。现在又要重新用python了，为了提高学习效率，继续从爬虫开始，一个小伙伴拉着我，合伙又买了一门499的课，继续上路

weixin_33743661

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫工作环境配置

磨刀不误砍柴工，在正式爬虫学习前，需要事先配置工作环境，包括如下：python环境。推荐python3，Windows建议用anaconda，Linux用如下代码sudo apt-get install python3-dev build-essential libssl-dev libffi-dev...
复制链接

扫一扫