java启动scrapy爬虫_python爬虫scrapy的官方demo的运行

前言

scrapy是一个python爬虫框架,为了方便学习开发者在github上提供了一个样例 。本文就是描述了运行这个demo过程出现的一些问题及解决办法

1.将这个github项目down到本地

在github上fork这个项目,这样能够获得到改项目ssh的git链接。 在centos系统上创建项目文件夹,在文件夹内执行

git clone fork得到的ssh链接

出现了拒绝访问的错误

原因没有生成ssh-key,没有与github进行访问绑定

“ssh-keygen -t rsa -C "your_email@youremail.com"”,your_email是你的email

在github上新添加一个ssh-key ,将生成的~/.ssh/id_rsa.pub的内容复制进去 测试ssh key是否成功,使用命令

ssh -T git@github.com

git config --global user.name "your name" //配置用户名

git config --global user.email "your email" //配置email

此时执行git clone ssh链接, 成功将项目down到了本地

2.安装pip

pip是一个python的模块安装工具

得到压缩包

wget https://pypi.python.org/packages/source/p/pip/pip-8.1.1.tar.gz#md5=6b86f11841e89c8241d689956ba99ed7

进入目录python setup.py install 进行安装

3.安装 scrapy

pip install scrapy

出现一系列错误

fatal error: Python.h: No such file or directory

yum install python-devel

fatal error: ffi.h: No such file or directory

yum install libffi libffi-devel

fatal error: openssl/e_os2.h: No such file or directory

yum install openssl-devel

pip install scrapy

success!!! :)

4.安装爬虫

进入项目目录

安装dmoz爬虫

python setup.py install

测试是否成功

scrapy list

运行爬虫

scrapy crawl dmoz

将结果保存为json文件

scrapy crawl dmoz -o item.json -t json

参考链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值