python实现二叉树的数据结构:
. 二叉树的排序方式:
- 广度遍历(层次遍历)
- 深度遍历:
- 前序(根左右):把根放到最前面
- 中序(左根右):把根放到中间
- 后序(左右根):把根放到最后
class Node():
def __init__(self,item):
self.item = item
self.right = None
self.left = None
class Tree():
def __init__(self):
self.root = None
def add(self,item):
node = Node(item)
if self.root is None:
self.root = node
return
else:
queue = [self.root]
while queue:
cur = queue.pop(0)
if cur.left is None:
cur.left = node
return
else:
queue.append(cur.left)
if cur.right is None:
cur.right = node
return
else:
queue.append(cur.right)
#广度遍历
def travel(self):
if self.root is None:
print('')
return
else:
queue = [self.root]
while queue:
cur = queue.pop(0)
print(cur.item)
if cur.left is not None:
queue.append(cur.left)
if cur.right is not None:
queue.append(cur.right)
#深度遍历:前序,中序,后序遍历
def forwordTravel(self,root):
if root is None:
return
print(root.item,end=' ')
self.forwordTravel(root.left)
self.forwordTravel(root.right)
def middleTravel(self,root):
if root is None:
return
self.middleTravel(root.left)
print(root.item,end=' ')
self.middleTravel(root.right)
def backTravel(self,root):
if root is None:
return
self.backTravel(root.left)
self.backTravel(root.right)
print(root.item,end=' ')
tree = Tree()
tree.add('0')
tree.add('1')
tree.add('2')
tree.add('3')
tree.add('4')
tree.add('5')
tree.add('6')
tree.add('7')
tree.add('8')
tree.add('9')
tree.travel()
tree.forwordTravel(tree.root)
print('\n')
tree.backTravel(tree.root)
print('\n')
tree.middleTravel(tree.root)
print('\n')
python实现排序二叉树:
#排序二叉树
class Node():
def __init__(self,item):
self.item = item
self.left = None
self.right = None
class Tree():
def __init__(self):
self.root = None
def insert(self,item):
node = Node(item)
cur = self.root
if cur is None:
self.root = node
return
while True:
if item < cur.item:
if cur.left is None:
cur.left = node
return
else:
cur = cur.left
else:
if cur.right is None:
cur.right = node
return
else:
cur = cur.right
def preTravel(self,root):
if root is None:
return
print(root.item,end=' ')
self.preTravel(root.left)
self.preTravel(root.right)
def middleTravel(self,root):
if root is None:
return
self.middleTravel(root.left)
print(root.item,end=' ')
self.middleTravel(root.right)
def backTravel(self,root):
if root is None:
return
self.backTravel(root.left)
self.backTravel(root.right)
print(root.item,end=' ')
tree = Tree()
tree.insert(3)
tree.insert(8)
tree.insert(5)
tree.insert(7)
tree.insert(6)
tree.preTravel(tree.root)
print('\n')
tree.middleTravel(tree.root)
print('\n')
tree.backTravel(tree.root)
print('\n')
分布式爬虫
分布式爬虫
概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。
作用:提升爬取数据的效率
如何实现分布式?
安装个scrapy- redis的组件
原生的sCarapy是不可以实现分布式爬虫,必须要让sc rapy结合着scrapy- redis组件一起实现分布式
为什么原生的scrapy不可以实现分布式?
调度器不可以被分布式机群共享
管道不可以被分布式机群共享
scrapy-redis组件作用:
可以给原生的sCrapy框架提供可以被共享的管道和调度器
实现流程
创建一个工程
创建一个基于CrawlSpide r的爬虫文件 scrapy genspider -t crawl proName www.xxx.com
修改当前的爬虫文件:
导包: from scrapy_redis.spiders import RedisCrawlSpider 将start_ urls和allowed_ doma ins进行注释
添加一个新属性: redis_key = 'sun'可以被共享的调度器队列的名称
scrapy startproject fbspro # 创建目录
cd fbspro # 进入目录
scrapy genspider -t crawl fbs www.xxx.com # 创建框架
编写数据解析相关的操作
将当前爬虫类的父类修改成RedisCrawlSpider
修改配置文件settings
-指定使用可以被共享的管道:
ITEM_ PIPELINES = {
scrapy_redis . pipelines。RedisPipeline': 400
}
-指定调度器: #增加了一个去重容器类的配置,作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #使用scrapy- redis组件自己的调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #配置调度器是否要持久化,也就是当爬虫结束了,要不要清空Redis中请求队列 和去重指定的set。如果是True则可以实现增量式爬虫 SCHEDULER_PERSIST = True
- redis相关操作配置:
配置redis的配置文件:
linux或者mac: redis.conf
windows : redis.window.conf
打开配置文件修改:
将bind 127. 0.0.1进行删除或注释
关闭保护模式: protected- mode yes改为no -结合着配置文件开启redis服务
- redis-server 配置文件
-启动客户端:
- redis-cli
-执行工程:
- scrapy runspider xxx. py
-向调度器的队列中放入一个起始的urL:
-调度器的队列在redis的客户端中
- lpush xXx www. xxx. com