精通Python爬虫框架Scrapy，如何安装vagrant系统？

本文详细介绍如何在Ubuntu环境下安装配置Scrapy爬虫所需的环境，包括VirtualBox、Vagrant等工具的使用，以及如何通过这些工具搭建一个稳定的开发测试环境。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先说几个书中没有提到的东西

感谢这篇文章
https://www.jianshu.com/p/86154920eeda

书中没有说安装virtualbox，其实需要安装
安装这个东西有什么用？是一个服务器，有需要你抓的网站。可以直接抓（不会因现实中的网站改版而造成代码失效）。虚拟服务器的网站，可以通过电脑上的浏览器直接访问。可以看到和分析网页代码，考虑爬虫怎么写。
dev服务器，运行scrapy shell，也可以调试爬虫和xpath。
浏览器通过这个网址http://localhost:9312/，访问vagrant中的服务器中的网站
dev服务器，运行scrapy shell时，通过http://web:9312/来访问服务器中的网站。

一、安装scrapy

sudo apt-get update
sudo apt-get install python-pip python-lxml python-crypto python-cssselect python-openssl python-w3lib python-twisted python-dev libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
sudo pip install scrapy

二、安装virtualbox

wget https://download.virtualbox.org/virtualbox/6.0.4/virtualbox-6.0_6.0.4-128413~Ubuntu~xenial_amd64.deb
sudo dpkg -i virtualbox-6.0_6.0.4-128413~Ubuntu~xenial_amd64.deb

上一行代码如果出现问题，运行

sudo apt-get install libsdl1.2debian

三、安装vagrant(虚拟机virtualbox管理工具）

wget https://releases.hashicorp.com/vagrant/2.2.3/vagrant_2.2.3_x86_64.deb
sudo dpkg -i vagrant_2.2.3_x86_64.deb

四、安装git

sudo apt-get update
sudo apt-get install git

五、安装Docker

sudo apt-key adv --keyserver hkp://p80.pool.sks-keyservers.net:80 --recv-keys 58118E89F3A912897C070ADBF76221572C52609D
echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main"|sudo tee /etc/apt/sources.list.d/docker.list
sudo apt-get update
sudo apt-get install docker-engine
sudo usermod -aG docker $(whoami)  // 这一行实际运行的是 sudo usermod -aG docker liulupeng (这里的liulupeng是用户的名字）

六、克隆scrapy示例项目

git clone https://github.com/scalingexcellence/scrapybook.git

七、进入目录、启动、登录

cd scrapybook

// 启动镜像（启动之前，先添加box:

vagrant box add myfirstbox https://vagrantcloud.com/lookfwd/boxes/scrapybook/versions/1.0.0/providers/virtualbox.box

myfirstbox是命名，随意取名；一般网速很慢，box有的几百M，如果下载太慢，可考虑在windows中下载，然后拖到ubuntu的scrapybook目录下–就是vagrant up的目录），但我这次弄，发现windows下载更慢。

vagrant up --no-parallel

// 登录镜像

vagrant ssh

六、七为《精通python 爬虫框架scrapy 人民邮电出版社》示例步骤

若添加box：

vagrant box add myfirstscrapy https://cloud-images.ubuntu.com/vagrant/trusty/current/trusty-server-cloudimg-amd64-vagrant-disk1.box

作者：书虫石头
链接：https://www.jianshu.com/p/86154920eeda
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。