前言
scrapy是一个python爬虫框架,为了方便学习开发者在github上提供了一个样例 。本文就是描述了运行这个demo过程出现的一些问题及解决办法
1.将这个github项目down到本地
在github上fork这个项目,这样能够获得到改项目ssh的git链接。 在centos系统上创建项目文件夹,在文件夹内执行
git clone fork得到的ssh链接
出现了拒绝访问的错误
原因没有生成ssh-key,没有与github进行访问绑定
“ssh-keygen -t rsa -C "your_email@youremail.com"”,your_email是你的email
在github上新添加一个ssh-key ,将生成的~/.ssh/id_rsa.pub的内容复制进去 测试ssh key是否成功,使用命令
ssh -T git@github.com
git config --global user.name "your name" //配置用户名
git config --global user.email "your email" //配置email
此时执行git clone ssh链接, 成功将项目down到了本地
2.安装pip
pip是一个python的模块安装工具
得到压缩包
wget https://pypi.python.org/packages/source/p/pip/pip-8.1.1.tar.gz#md5=6b86f11841e89c8241d689956ba99ed7
进入目录python setup.py install 进行安装
3.安装 scrapy
pip install scrapy
出现一系列错误
fatal error: Python.h: No such file or directory
yum install python-devel
fatal error: ffi.h: No such file or directory
yum install libffi libffi-devel
fatal error: openssl/e_os2.h: No such file or directory
yum install openssl-devel
pip install scrapy
success!!! :)
4.安装爬虫
进入项目目录
安装dmoz爬虫
python setup.py install
测试是否成功
scrapy list
运行爬虫
scrapy crawl dmoz
将结果保存为json文件
scrapy crawl dmoz -o item.json -t json
参考链接