scrapy（一）建立一个scrapy项目

最新推荐文章于 2024-04-10 19:54:42 发布

weixin_30824479

最新推荐文章于 2024-04-10 19:54:42 发布

阅读量141

点赞数

文章标签： python 爬虫数据库

原文链接：http://www.cnblogs.com/corolcorona/p/6801960.html

版权

本项目实现了获取stack overflow问题，使用python语言,scrapy框架，选取mongoDB作为持久化数据库，redis做为数据缓存

项目源码可以参考我的github:https://github.com/corolcorona/StacksSpider

1.创建一个scrapy项目

在创建的目录下执行命令：scrapy startproject 项目名

这样就创建好了一个名为stackspider的项目，创建成功后，项目会产生以下文件

常用到的：

settings.py 爬虫相关的配置信息，数据库配置等
items.py 定义数据格式，可以用来保存爬取得数据，类似于python的字典
pipelines 数据持久化，处理items保存的数据
spiders 爬虫目录，写具体的爬虫可以在此文件夹下增加python文件

2.使用scrapy

创建完成后已有提示，所以我们创建一个用于抓取网站的文件名为stack

我们可以通过scrapy crawl 爬虫的name 来进行运行

但是这样会报错Crawled (403) <GET > (referer: None)或者Crawled (200) <GET > (referer: None)

原因是网站的反爬虫策略，所以我们可以

1.设置代理进行执行在命令上加上-s USER_AGENT='Mozilla/5.0'

2.修改scrapy的user-agent默认值

通过第一种方法我们可以获取到网页的html

项目就搭建好了

转载于:https://www.cnblogs.com/corolcorona/p/6801960.html

weixin_30824479

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy（一）建立一个scrapy项目

本项目实现了获取stack overflow问题，使用python语言,scrapy框架，选取mongoDB作为持久化数据库，redis做为数据缓存项目源码可以参考我的github:https://github.com/corolcorona/StacksSpider1.创建一个scrapy项目在创建的目录下执行命令：scrapy startproject 项目名这样就创...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。