先说几个书中没有提到的东西
感谢这篇文章
https://www.jianshu.com/p/86154920eeda
- 书中没有说安装virtualbox,其实需要安装
- 安装这个东西有什么用?是一个服务器,有需要你抓的网站。可以直接抓(不会因现实中的网站改版而造成代码失效)。虚拟服务器的网站,可以通过电脑上的浏览器直接访问。可以看到和分析网页代码,考虑爬虫怎么写。
- dev服务器,运行scrapy shell,也可以调试爬虫和xpath。
- 浏览器通过这个网址http://localhost:9312/,访问vagrant中的服务器中的网站
- dev服务器,运行scrapy shell时,通过http://web:9312/来访问服务器中的网站。
一、安装scrapy
sudo apt-get update
sudo apt-get install python-pip python-lxml python-crypto python-cssselect python-openssl python-w3lib python-twisted python-dev libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
sudo pip install scrapy
二、安装virtualbox
wget https://download.virtualbox.org/virtualbox/6.0.4/virtualbox-6.0_6.0.4-128413~Ubuntu~xenial_amd64.deb
sudo dpkg -i virtualbox-6.0_6.0.4-128413~Ubuntu~xenial_amd64.deb
上一行代码如果出现问题,运行
sudo apt-get install libsdl1.2debian
三、安装vagrant(虚拟机virtualbox管理工具)
wget https://releases.hashicorp.com/vagrant/2.2.3/vagrant_2.2.3_x86_64.deb
sudo dpkg -i vagrant_2.2.3_x86_64.deb
四、安装git
sudo apt-get update
sudo apt-get install git
五、安装Docker
sudo apt-key adv --keyserver hkp://p80.pool.sks-keyservers.net:80 --recv-keys 58118E89F3A912897C070ADBF76221572C52609D
echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main"|sudo tee /etc/apt/sources.list.d/docker.list
sudo apt-get update
sudo apt-get install docker-engine
sudo usermod -aG docker $(whoami) // 这一行实际运行的是 sudo usermod -aG docker liulupeng (这里的liulupeng是用户的名字)
六、克隆scrapy示例项目
git clone https://github.com/scalingexcellence/scrapybook.git
七、进入目录、启动、登录
cd scrapybook
// 启动镜像(启动之前,先添加box:
vagrant box add myfirstbox https://vagrantcloud.com/lookfwd/boxes/scrapybook/versions/1.0.0/providers/virtualbox.box
myfirstbox是命名,随意取名;一般网速很慢,box有的几百M,如果下载太慢,可考虑在windows中下载,然后拖到ubuntu的scrapybook目录下–就是vagrant up的目录),但我这次弄,发现windows下载更慢。
vagrant up --no-parallel
// 登录镜像
vagrant ssh
六、七为《精通python 爬虫框架scrapy 人民邮电出版社》示例步骤
若添加box:
vagrant box add myfirstscrapy https://cloud-images.ubuntu.com/vagrant/trusty/current/trusty-server-cloudimg-amd64-vagrant-disk1.box
作者:书虫石头
链接:https://www.jianshu.com/p/86154920eeda
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。