二叉树&分布式爬虫

python实现二叉树的数据结构:

  . 二叉树的排序方式:

    - 广度遍历(层次遍历)

    - 深度遍历:
      - 前序(根左右):把根放到最前面
      - 中序(左根右):把根放到中间
      - 后序(左右根):把根放到最后

class Node():
    def __init__(self,item):
        self.item = item
        self.right = None
        self.left = None
class Tree():
    def __init__(self):
        self.root = None
    def add(self,item):
        node = Node(item)
        if self.root is None:
            self.root = node
            return
        else:
            queue = [self.root]
            while queue:
                cur = queue.pop(0)
                if cur.left is None:
                    cur.left = node
                    return
                else:
                    queue.append(cur.left)
                if cur.right is None:
                    cur.right = node
                    return
                else:
                    queue.append(cur.right)
    #广度遍历
    def travel(self):
        if self.root is None:
            print('')
            return
        else:
            queue = [self.root]
            while queue:
                cur = queue.pop(0)
                print(cur.item)
                if cur.left is not None:
                    queue.append(cur.left)
                if cur.right is not None:
                    queue.append(cur.right)
                    
    #深度遍历:前序,中序,后序遍历
    def forwordTravel(self,root):
        if root is None:
            return
        print(root.item,end=' ')
        self.forwordTravel(root.left)
        self.forwordTravel(root.right)
        
    def middleTravel(self,root):
        if root is None:
            return
        self.middleTravel(root.left)
        print(root.item,end=' ')
        self.middleTravel(root.right)
        
    def backTravel(self,root):
        if root is None:
            return
        self.backTravel(root.left)
        self.backTravel(root.right)
        print(root.item,end=' ')
                
tree = Tree()
tree.add('0')
tree.add('1')
tree.add('2')
tree.add('3')
tree.add('4')
tree.add('5')
tree.add('6')
tree.add('7')
tree.add('8')
tree.add('9')

tree.travel()
tree.forwordTravel(tree.root)
print('\n')
tree.backTravel(tree.root)
print('\n')
tree.middleTravel(tree.root)
print('\n')

python实现排序二叉树:

#排序二叉树
class Node():
    def __init__(self,item):
        self.item = item
        self.left = None
        self.right = None
class Tree():
    def __init__(self):
        self.root = None
    def insert(self,item):
        node = Node(item)
        cur = self.root
        if cur is None:
            self.root = node
            return
        while True:
            if item < cur.item:
                if cur.left is None:
                    cur.left = node
                    return
                else:
                    cur = cur.left
            else:
                if cur.right is None:
                    cur.right = node
                    return
                else:
                    cur = cur.right
    def preTravel(self,root):
        if root is None:
            return
        print(root.item,end=' ')
        self.preTravel(root.left)
        self.preTravel(root.right)
    def middleTravel(self,root):
        if root is None:
            return
        self.middleTravel(root.left)
        print(root.item,end=' ')
        self.middleTravel(root.right)
    def backTravel(self,root):
        if root is None:
            return
        self.backTravel(root.left)
        self.backTravel(root.right)
        print(root.item,end=' ')
        
tree = Tree()
tree.insert(3)
tree.insert(8)
tree.insert(5)
tree.insert(7)
tree.insert(6)
tree.preTravel(tree.root)
print('\n')
tree.middleTravel(tree.root)
print('\n')
tree.backTravel(tree.root)
print('\n')

分布式爬虫

分布式爬虫
        概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。
        作用:提升爬取数据的效率
如何实现分布式?
        安装个scrapy- redis的组件
        原生的sCarapy是不可以实现分布式爬虫,必须要让sc rapy结合着scrapy- redis组件一起实现分布式
        为什么原生的scrapy不可以实现分布式?
                调度器不可以被分布式机群共享
                管道不可以被分布式机群共享
        scrapy-redis组件作用:
                可以给原生的sCrapy框架提供可以被共享的管道和调度器
实现流程
        创建一个工程
        创建一个基于CrawlSpide r的爬虫文件                                                                                                        scrapy genspider -t crawl proName www.xxx.com
        修改当前的爬虫文件:
                导包: from scrapy_redis.spiders import RedisCrawlSpider                                                                将start_ urls和allowed_ doma ins进行注释
                添加一个新属性: redis_key = 'sun'可以被共享的调度器队列的名称

scrapy startproject fbspro  # 创建目录
cd fbspro  # 进入目录
scrapy genspider -t crawl fbs www.xxx.com  # 创建框架

                编写数据解析相关的操作
                        将当前爬虫类的父类修改成RedisCrawlSpider
                修改配置文件settings
                        -指定使用可以被共享的管道:
                        ITEM_ PIPELINES = {
                                scrapy_redis . pipelines。RedisPipeline': 400
                        }
                -指定调度器:                                                                                                                                                 #增加了一个去重容器类的配置,作用使用Redis的set集合来存储请求的指纹数据,                              从而实现请求去重的持久化                                                                                                             DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"                                                   #使用scrapy- redis组件自己的调度器                                                                                     SCHEDULER = "scrapy_redis.scheduler.Scheduler"                                                                         #配置调度器是否要持久化,也就是当爬虫结束了,要不要清空Redis中请求队列                                 和去重指定的set。如果是True则可以实现增量式爬虫                                                                   SCHEDULER_PERSIST = True
                - redis相关操作配置:
                        配置redis的配置文件:
                                linux或者mac: redis.conf
                                windows : redis.window.conf
                        打开配置文件修改:
                                将bind 127. 0.0.1进行删除或注释
                                关闭保护模式: protected- mode yes改为no                                                                       -结合着配置文件开启redis服务
                        - redis-server 配置文件
                        -启动客户端:
                                - redis-cli
                        -执行工程:
                                - scrapy runspider xxx. py
                        -向调度器的队列中放入一个起始的urL:
                        -调度器的队列在redis的客户端中
                                - lpush xXx www. xxx. com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值