scrapy分布式写入到mysql_scrapy-redis分布式爬虫去重异步写入mysql数据库实例代码...

最新推荐文章于 2021-07-22 22:17:55 发布

我有改名卡

最新推荐文章于 2021-07-22 22:17:55 发布

阅读量150

点赞数

文章标签： scrapy分布式写入到mysql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35204634/article/details/113128429

版权

首先创建一个爬虫文件dgrds.py

# -*- coding: utf-8 -*-

import scrapy

from scrapy_redis.spiders import RedisSpider

class DgrdsSpider(RedisSpider):

name = 'dgrds'

redis_key = 'dgrds:start_urls'

def parse(self, response):

for i in range(2499930, 2499940):

yield scrapy.Request('https://www.douguo.com/cookbook/' + str(i) + '.html', callback=self.parse2)

def parse2(self, response):

if (response.status == 200):

title = response.css('.rinfo h1.title::text').get('')

view_nums = response.css('.vcnum span:first-of-type::text').get('')

collection_nums = response.css('.vcnum .collectnum::text').get('')

user_name = response.css('.author-info .nickname::text').get('')

user_image = response.css('.author-img img::attr(src)').get('')

tags = ''

tag_arr = response.css('.fenlei span')

if tag_arr is not None:

for tg in tag_arr:

tags += ';' + tg.css('a::text').get('')

basic_url = ''

youku = ''

id = 0

isvideo = response.css('#banner + a')

if isvideo is not None:

next_url = response.css('#banner + a::attr(href)').get('')

id = next_url.replace('/recipevideo/', '')

basic_url = 'https://www.douguo.com/cookbook/' + id + '.html'

item = {

'cate': '',

'title': title,

'view_nums': view_nums,

'collection_nums': collection_nums,

'user_name': user_name,

'user_image': user_image,

'tags': tags,

'basic_url

最低0.47元/天解锁文章

我有改名卡

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy分布式写入到mysql_scrapy-redis分布式爬虫去重异步写入mysql数据库实例代码...

首先创建一个爬虫文件dgrds.py# -*- coding: utf-8 -*-import scrapyfrom scrapy_redis.spiders import RedisSpiderclass DgrdsSpider(RedisSpider):name = 'dgrds'redis_key = 'dgrds:start_urls'def parse(self, response):f...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。