scrapy+scrapyd+scrapydweb简单使用（windows）

最新推荐文章于 2024-08-09 07:37:47 发布

X'Rain

最新推荐文章于 2024-08-09 07:37:47 发布

阅读量1.4k

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_42610260/article/details/108863275

版权

本文介绍了在Windows上使用scrapy创建爬虫，scrapyd进行部署，以及scrapydweb作为可视化管理工具进行定时任务设置的详细步骤。内容包括scrapy的安装、项目创建、爬虫编写，以及scrapyd和scrapydweb的安装、配置和使用。特别提到了解决scrapyd运行爬虫无响应的问题，以及如何使用selenium处理动态加载内容。

摘要由CSDN通过智能技术生成

前言

因为项目需要搭建一个定时爬虫，用了几天的时间写好了scrapy，又了解到部署爬虫需要用到scrapyd（通过post请求的方式执行爬虫，功能太简单不够方便），方便的设置定时任务等需要用到scrapy可视化管理工具scrapydweb（相当于scrapyd基础上的框架，常见的有spiderkeeper和scrapydweb两款，网上介绍说spiderkeeper更稳定，scrpaydweb功能更完善）。因为网上相关文章比较少而且不够全面，所以本文做个简单记录和分享
均在Windows计算机上本地运行，项目环境使用全局环境，只讲到了项目过程中我遇到过的情况和问题，其他问题或其他系统或远程运行可以参考其他文章

scrapy

安装scrapy

pip install scrapy
pip install pywin32（之前没装出现了scrapyd运行爬虫没反应的情况）
创建项目

scrcpy startproject 项目名称
简单配置settings.py
- 不遵守爬虫公约，不然爬不了
  
  ROBOTSTXT_OBEY = False
- 添加User-Agent等模拟请求头
```
DEFAULT_REQUEST_HEADERS = {
	'User-Agent': '...',
}
```

items.py中添加数据模型

创建需要收集的数据变量

class XXXItem(scrapy.Item):
    origin = scrapy.Field()
    title = scrapy.Field()
    views = scrapy.Field()
    link = scrapy.Field()

pipelines.py中配置存储方式

import pymysql	

class HotListPipeline:
    def __init__(self):#初始连接数据库
        self.con = pymysql.connect(host='localhost', port=3306, database='xxx', charset='utf8', user='root',
                                   password='xxx')

    def open_spider(self, spider):#爬虫开始前创建cursor
        self.cursor = self.con.cursor()

    def process_item(self, item, spider):#爬虫过程中执行sql语句
        self.cursor.execute(
            "insert into xxx values ('{item['origin']}','{item['title']}',{item['views']},'{item['link']}')")
        self.con.commit()
        return item

    def close_spider(self, spider):#爬虫结束后关闭数据库连接
        self.con.close()

创建常规爬虫
- 创建
  
  scrapy genspider 项目名域名
  - 常规爬虫需要自己指定爬取页面，通过scrapy genspider -t crawl 项目名域名创建的爬虫能够自己寻找满足rule规格的页面并爬取，本文不做具体介绍
  - 域名设置为二级域名.一级域名即可，因为爬取的网址可能主机名并不一样，例如：设置域名为www.baidu.com则不能爬取news.baidu.com
- 爬虫内容
  - 传入爬取链接&#

最低0.47元/天解锁文章

X'Rain

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
scrapy+scrapyd+scrapydweb简单使用（windows）

前言因为项目需要搭建一个定时爬虫，用了几天的时间写好了scrapy，又了解到部署爬虫需要用到scrapyd（通过post请求的方式执行爬虫，功能太简单不够方便），方便的设置定时任务等需要用到scrapy可视化管理工具scrapydweb（相当于scrapyd基础上的框架，常见的有spiderkeeper和scrapydweb两款，网上介绍说spiderkeeper更稳定，scrpaydweb功能更完善）。因为网上相关文章比较少而且不够全面，所以本文做个简单记录和分享均在Windows计算机上本地
复制链接

扫一扫

专栏目录