scrapy分布式写入到mysql_scrapy-redis分布式爬虫去重异步写入mysql数据库实例代码...

首先创建一个爬虫文件dgrds.py

# -*- coding: utf-8 -*-

import scrapy

from scrapy_redis.spiders import RedisSpider

class DgrdsSpider(RedisSpider):

name = 'dgrds'

redis_key = 'dgrds:start_urls'

def parse(self, response):

for i in range(2499930, 2499940):

yield scrapy.Request('https://www.douguo.com/cookbook/' + str(i) + '.html', callback=self.parse2)

def parse2(self, response):

if (response.status == 200):

title = response.css('.rinfo h1.title::text').get('')

view_nums = response.css('.vcnum span:first-of-type::text').get('')

collection_nums = response.css('.vcnum .collectnum::text').get('')

user_name = response.css('.author-info .nickname::text').get('')

user_image = response.css('.author-img img::attr(src)').get('')

tags = ''

tag_arr = response.css('.fenlei span')

if tag_arr is not None:

for tg in tag_arr:

tags += ';' + tg.css('a::text').get('')

basic_url = ''

youku = ''

id = 0

isvideo = response.css('#banner + a')

if isvideo is not None:

next_url = response.css('#banner + a::attr(href)').get('')

id = next_url.replace('/recipevideo/', '')

basic_url = 'https://www.douguo.com/cookbook/' + id + '.html'

item = {

'cate': '',

'title': title,

'view_nums': view_nums,

'collection_nums': collection_nums,

'user_name': user_name,

'user_image': user_image,

'tags': tags,

'basic_url

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值