CrawlSpider爬虫

最新推荐文章于 2022-04-14 17:25:11 发布

qq_39239110

最新推荐文章于 2022-04-14 17:25:11 发布

阅读量167

点赞数

分类专栏： python学习文章标签： scapy 爬虫表单提交操作

本文链接：https://blog.csdn.net/qq_39239110/article/details/103262550

版权

CrawlSpider是Scrapy框架中用于自动化抓取满足特定规则URL的爬虫。它扩展了Spider的功能，允许定义爬取规则，遇到符合条件的链接会自动爬取，无需手动创建Request。本文介绍了如何创建CrawlSpider，包括异步保存MySQL数据的方法，以及使用Scrapy自动登录GitHub的步骤，涉及页面信息提取、表单填充和提交等操作。

摘要由CSDN通过智能技术生成

之前使用的普通的spider,我们需要自己在解析完整个页面后获取下一页的url,然后重新发送一个请求。有时候我们想要这样做，只要满足某个条件的url,都给我进行爬取。那么我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是在之前的基础之上增加了新的功能。可以定义爬取的url的规则，以后scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。
创建CrawlSpider爬虫：

scrapy genspider -t crawl [爬虫名称][域名]

异步保存MySQL数据
1，使用twisted.enterprise.adbapi来创建连接池。

 #  连接数据库
       self.adpool= adbapi.ConnectionPool(
            mysql_config['DRIVER'],
            host =mysql_config['HOST'],
            port = mysql_config['PORT'],
            user =mysql_config['USER'],
            password =mysql_config['PASSWORD'],
            db = mysql_config['DATABASE'],
            # 在建表时注意需要设置字段的编码属性为‘utf8’,否则会报错
            charset = 'utf8'
       )
       print('连接数据库成功')
    # 只要重写了from_crwaler()方法，那么以后创建对象的时候，就会调用这个方法来获取pipeline对象。
    @classmethod
    def from_crawler(cls,crawler):
        mysql_config=crawler.settings['MYSQL_CONFIG']
        return cls(mysql_config)