scrapy_redis百度人物爬虫

八字命令做了不少改造,最后发现还有需要大量的案例,有些条文总是太模糊,而没有权威解释,你很难相信他们所有的信手拈来的“想象力”。
1 scrapy_redis
Scrapy-redis分布式+Scrapy-redis实战

pip install scrapy_redis -i https://pypi.tuna.tsinghua.edu.cn/simple

使用scrapy_redis,获取百度人物的链接,代码很简单,就是从文件中按行读取名称,写入到redis中
1

# -*- coding: utf-8 -*-
# @time    : 2021/8/8 19:25
# @author  : dzm
# @dsec    :
import redis

def read_file(conn,file_name):
    with open(file_name,encoding='utf-8' ) as lines:
        for line in lines:
            write_redis(conn, line)

def write_redis(conn, value):
    conn.rpush('bp:sport',value)

def get_conn():
    r = redis.Redis(host='127.0.0.1',port=6379);
    return r

if __name__ == '__main__':
    conn = get_conn()
    read_file(conn, r'../files/bd_sport')
    print('写入人物完成')

2 从百度人物链接解析出需要的内容
集成RedisSpider,指定redis的key即可

# -*- coding: utf-8 -*-
# @time    : 2021/8/8 12:00
# @author  : dzm
# @dsec    :
import re
import scrapy
from scrapy_redis.spiders import RedisSpider
from pyquery import PyQuery as pq
from life_example.items import QqPersonItem
import datetime

class Bp1Spdier(RedisSpider):
    name = "bp1"
    allowed_domains = ['baidu.com']

    redis_key = 'bp:sport'

    def make_requests_from_url(self, url):
        url = 'https://baike.baidu.com/item/{}'.format(url)
        print(url)
        return scrapy.Request(url=url, method='GET',dont_filter=True, callback=self.parse_content)

    def parse_content(self, response):
        print('进入到bp1')
        soup = pq(response.body_as_unicode())
        # 基本信息
        item = QqPersonItem()
        dt1s = soup('.basic-info dl:eq(0) dt')
        for i in range(dt1s.size()):
            dt = dt1s[i].text
            dd = soup('.basic-info dl:eq(0) dd:eq({})'.format(i)).text()
            self.get_sport_info(dt, dd, item)
        dt2s = soup('.basic-info dl:eq(1) dt')
        for i in range(dt2s.size()):
            dt_val = dt1s[i].text
            dd_val = soup('.basic-info dl:eq(1) dd:eq({})').format(i).text()
            self.get_sport_info(dt, dd, item)
        yield item

    def get_sport_info(self,dt, dd, item):
        # 去空格
        dt = re.sub('\s+',' ',dt).strip()
        if (dt == '中文名'):
            item['name'] = dd
        elif (dt == '国籍'):
            item['nation'] = dd
        elif (dt == '出生地'):
            item['birthplace'] = dd
        elif (dt == '出生日期'):
            item['birthday'] = self.get_birthday(dd)
        elif (dt == '运动项目'):
            item['occupation'] = dd
        elif (dt == '主要奖项' or dt == '主要成就'):
            item['desc'] = dd

    def get_birthday(self, date):
        if re.match(r'\d{4}-\d{1,2}-\d{1,2}日?',date):
            solar_birthday = datetime.datetime.strptime(date,'%Y-%m-%d')
        elif re.match(r'\d{4}\.\d{1,2}\.\d{1,2}日?',date):
            solar_birthday = datetime.datetime.strptime(date,'%Y.%m.%d')
        elif re.match(r'\d{4}年\d{1,2}月\d{1,2}日?',date):
            sb = date.split(" ")[0]
            if '日' in sb:
                solar_birthday = datetime.datetime.strptime(sb,'%Y年%m月%d日')
            else:
                solar_birthday = datetime.datetime.strptime(sb+'日','%Y年%m月%d日')
        return solar_birthday

if __name__ == '__main__':
    pass
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Scrapy Redis是一个用于分布式爬取网页的Python框架。它是基于Scrapy框架的扩展,采用Redis作为分布式队列,可以在多个爬虫节点之间共享任务和数据。通过引入scrapy_redis.spider文件中的RedisSpider类,可以将原来继承的scrapy.Spider类改为RedisSpider类,从而实现对分布式爬虫的支持。 在使用分布式爬虫的过程中,首先需要将项目配置为分布式,并将项目拷贝到多台服务器中。然后启动所有的爬虫项目,这样每个爬虫节点都可以独立运行。接下来,在主redis-cli中使用lpush命令将需要爬取的网址推送到Redis队列中。这样,所有的爬虫节点都会开始运行,同时获取不同的任务和数据,实现分布式爬取的效果。 要使用Scrapy Redis进行分布式爬取,首先需要安装scrapy_redis包。可以通过在CMD工具中执行命令"pip install scrapy_redis"来进行安装。安装完成后,就可以在项目中使用scrapy_redis进行分布式爬取了。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Scrapy基于scrapy_redis实现分布式爬虫部署](https://blog.csdn.net/baoshuowl/article/details/79701303)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

warrah

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值